# 2: मशीन लर्निंग अल्गोरिदम विषयी आपल्याला काय माहित असणे आवश्यक आहे आणि आपल्याला काळजी का घ्यावी

6 भागांच्या ट्यूटोरियलचा हा भाग 2, बिल्डिंग मशीन लर्निंग बेस्ड प्रॉडक्ट्ससाठी चरण-दर-चरण पंतप्रधान मार्गदर्शक.

आम्ही यापूर्वी एमएलवर कोणत्या प्रकारच्या व्यवसायाचा परिणाम होऊ शकतो याबद्दल चर्चा केली. आता, डेटा विज्ञान कार्यसंघासह प्रभावीपणे कार्य करण्यासाठी आपल्यास आवश्यक असलेल्या सर्व तांत्रिक अटींचे पुनरावलोकन करू या आणि आपल्या व्यवसायाचा सर्वात मोठा परिणाम तयार करण्यात त्यांना मदत करा (किंवा किमान ते कशाबद्दल बोलत आहेत हे आपल्याला माहित आहे).

अल्गोरिदम, मॉडेल्स आणि डेटा

वैचारिक स्तरावर, आम्ही एक मशीन तयार करीत आहोत ज्याने डेटाचा नमुना शोधून त्याद्वारे शिकून विशिष्ट इनपुटचा एक विशिष्ट सेट दिल्यास विशिष्ट इच्छित उत्पादन मिळेल.

एखादी सामान्य बाब म्हणजे मशीनची सुरूवात होणारी इनपुटचा सेट आणि त्या निविष्ठाशी संबंधित आउटपुटचा सेट पाहून. हे त्यांच्यामधील नमुने ओळखते आणि जटिल नियमांचा एक संच तयार करते जे नंतर न पाहिलेलेल्या नवीन इनपुटवर लागू होते आणि इच्छित आउटपुट तयार करते. उदाहरणार्थ, चौरस फुटेज, पत्ता आणि खोल्यांची संख्या (इनपुट) आम्ही घराच्या विक्री किंमतीचा अंदाज (आऊटपुट) शोधत आहोत. समजा आमच्याकडे चौरस फुटेज, 10,000 घरांच्या खोल्यांची संख्या आणि त्यांची माहिती तसेच त्यांची विक्री किंमत आहे. मशीन डेटावर स्वतःच “प्रशिक्षित” करेल - म्हणजे चौरस फुटेज, पत्ता आणि खोल्यांची संख्या घराच्या किंमतीवर कसा परिणाम करते हे ठरवते असे नमुने ओळखते, जेणेकरुन आम्ही त्या घरासाठी पूर्वी दिलेली 3 साधने दिली तर ती त्या घराच्या किंमतीचा अंदाज लावू शकतो.

इनपुट आणि अपेक्षित आउटपुट दिल्यास वापरण्यासाठी इष्टतम मशीन शोधणे ही डेटा सायंटिस्टची भूमिका आहे. तिच्याकडे मशीनसाठी अनेक टेम्पलेट्स आहेत - ज्याला म्हणतात अल्गोरिदम. एका विशिष्ट समस्येचे निराकरण करण्यासाठी तिने त्या टेम्पलेटमधून तयार केलेल्या मशीनला मॉडेल म्हणतात. टेम्पलेट्सकडे भिन्न पर्याय आणि सेटिंग्ज आहेत ज्या ती समान टेम्पलेटमधून भिन्न मॉडेल तयार करण्यासाठी चिमटा काढू शकतात. ती भिन्न टेम्पलेट वापरू शकते आणि / किंवा समान टेम्पलेटसाठी सेटिंग्ज ट्विक करू शकते ज्यामुळे ती चाचणी घेऊ शकतील असे सर्वोत्कृष्ट निकाल देते.

लक्षात घ्या की संभाव्यतेच्या काही प्रमाणात निर्णय घेण्याकरिता मॉडेल आउटपुट योग्य / उपयुक्त आहे. मॉडेल 100% योग्य नाहीत, परंतु मॉडेलने किती डेटा पाहिला आहे हे पाहता ते "सर्वोत्कृष्ट अंदाज" आहेत. मॉडेलने जितका डेटा पाहिले तितका उपयुक्त आउटपुट देण्याची शक्यता जास्त आहे.

ज्ञात माहिती आणि वैज्ञानिक आकडेवारीचा शास्त्रज्ञ मशीनला “प्रशिक्षित” करण्यासाठी वापरतो - म्हणजे मॉडेलला डेटामधील पॅटर्न ओळखू द्या आणि नियम तयार करू द्या - “ट्रेनिंग सेट” आहे. या डेटाचा वापर एक किंवा अधिक "टेम्पलेट्स" सह एक किंवा अधिक मॉडेल तयार करण्यासाठी केला जातो जो डेटा शास्त्रज्ञांना वाटतो की समस्येचे निराकरण करण्यासाठी कार्य करू शकेल. लक्षात ठेवा की तिने फक्त “टेम्पलेट” (अल्गोरिदम) वापरला असला तरीही, ती एकाच टेम्पलेटमधून एकाधिक मॉडेल्स तयार करण्यासाठी काही सेटिंग्ज चिमटा काढू शकतात, भिन्न सेटिंग्जसह, त्यामुळे ती बर्‍याच मॉडेल्ससह अप समाप्त होईल.

तिच्याकडे यापैकी काही “प्रशिक्षित” मॉडेल्स आल्यानंतर, ते किती चांगले कार्य करतात आणि कोणते सर्वोत्कृष्ट कार्य करते याची तपासणी करावी लागेल. ती असे करते की “व्हॅलिडेशन सेट” नावाचा एक नवीन डेटा वापरतो. वैधता सेट इनपुटच्या सर्वात जवळील कोणते निकाल देते हे पाहण्यासाठी ती मॉडेल चालवते. आमच्या उदाहरणामध्ये - कोणते मॉडेल घर किंमतीची किंमत सांगेल जे घर विकल्या गेले त्या वास्तविक किंमतीच्या अगदी जवळ आहे. तिला या टप्प्यावर डेटाचा नवीन सेट आवश्यक आहे कारण मॉडेल त्यांच्या प्रशिक्षणाच्या आधारे त्यांच्या कामगिरीच्या आधारे तयार केले गेले होते, म्हणूनच ते त्या सेटवर चांगले काम करण्यास पक्षपाती आहेत आणि खरे वाचन देणार नाहीत.

एकदा तिने कोणत्या मॉडेलने सर्वोत्कृष्ट कामगिरी केली आणि विजेता निवडले हे सत्यापित केले की आमच्या डेटा वैज्ञानिकांनी त्या मॉडेलची वास्तविक कार्यक्षमता निश्चित करणे आवश्यक आहे, म्हणजे समस्या सोडवण्यामध्ये तिचे सर्वोत्कृष्ट मॉडेल किती चांगले उत्पादन करेल. पुन्हा, तिला नवीन डेटा सेटची आवश्यकता आहे कारण प्रशिक्षण आणि वैधता सेटवर मॉडेल स्पष्टपणे उत्कृष्ट कामगिरी करतो - ते कसे निवडले गेले! अंतिम डेटा सेटला “चाचणी संच” असे म्हणतात. आमच्या उदाहरणात ती तपासेल की सेट केलेल्या घरगुती किंमती चाचणी संचांच्या घरांच्या किंमतींच्या किती जवळील आहेत हे तपासून पाहतील. आम्ही कार्यक्षमता मोजण्यासाठी अधिक तपशीलवार चर्चा करू.

“शिक्षण” चे प्रकार

मशीन शिक्षण समस्येचे निराकरण करण्यासाठी आपण कोणत्या प्रकारचे अल्गोरिदम लागू करू शकता ते आपल्याकडे असलेल्या डेटावर अवलंबून आहे. अल्गोरिदम शिकण्याचे महत्त्वाचे वर्गीकरण मॉडेल तयार करण्यासाठी आवश्यक असलेल्या डेटावर आधारित आहे जे डेटा वापरतात: इनपुट आणि आऊटपुट किंवा फक्त इनपुट दोन्ही समाविष्ट करणे आवश्यक आहे की नाही, किती डेटा पॉइंट्स आवश्यक आहेत आणि जेव्हा डेटा संकलित केला जातो. यात 4 मुख्य प्रकारांचा समावेश आहे: पर्यवेक्षी शिक्षण, अप्रसिद्ध पर्यवेक्षण, अर्ध-पर्यवेक्षी शिक्षण आणि मजबुतीकरण शिक्षण.

पर्यवेक्षित शिक्षण

मागील भागात आम्ही ज्या प्रकरणात सविस्तर चर्चा केली त्या प्रकरणात ज्याला आपण "पर्यवेक्षी शिक्षण" म्हणतो त्याचे वर्णन केले. हा एक प्रकारचा शिक्षण आहे जेथे कार्य करण्यासाठी अल्गोरिदमला बरीच लेबल डेटा उदाहरणे पहाण्याची आवश्यकता असते - डेटा कार्य करण्यासाठी दोन्ही इनपुट आणि संबंधित आउटपुटचा समावेश आहे. "लेबल केलेला" भाग मॉडेलचा अंदाज लावण्याचा प्रयत्न करीत असलेल्या परिणामासह इनपुटला टॅग करणे होय, उदाहरणार्थ आमच्या किंमतीच्या किंमती.

पर्यवेक्षित लर्निंग अल्गोरिदम लेबल केलेला डेटा (उर्फ “ग्राउंड ट्रुथ” डेटा) पाहतात, त्यातून शिका आणि त्या उदाहरणांच्या आधारे भविष्यवाणी करा. त्यांना बर्‍याच लेबल डेटा अपफ्रंटची आवश्यकता आहे: संख्या वापर प्रकरणात अवलंबून असताना, शेकडो डेटा पॉइंट्स दूरस्थपणे उपयुक्त कोणत्याही गोष्टीकडे जाण्यासाठी सर्वात कमी आहेत.

पर्यवेक्षी शिक्षणाद्वारे सोडवल्या जाणार्‍या दोन क्लासिक समस्या पुढीलप्रमाणेः

  • रीग्रेशन. डेटाच्या इतर तुकड्यांच्या आधारे अज्ञात व्हेरिएबलचे मूल्य समाविष्ट केल्यास त्याचा परिणाम त्या व्हेरिएबलवर होईल. दोन सामान्य उपयोग म्हणजे वेळेचे भविष्य सांगणे - उदा. स्थान आणि चौरस फुटेज अशा चलांवर आधारित घराच्या किंमतीचा अंदाज लावण्याचे आणि भविष्यातील मूल्यांची भविष्यवाणी करण्याचे आमचे मागील उदाहरण - उदाहरणार्थ ऐतिहासिक आणि वर्तमान घर मूल्याच्या आधारे आतापासून वर्षाच्या वर्षाच्या मूल्यांची भविष्यवाणी करणे. डेटा. रिग्रेशन ही एक सांख्यिकीय पद्धत आहे जी स्वतंत्र व्हेरिएबल्स (आपल्याकडे आधीपासून असलेला डेटा) आणि निर्भर चल ज्याचे मूल्य ज्याचा अंदाज आपण शोधत आहात त्यामधील संबंध निश्चित करते.
  • वर्गीकरण दिलेल्या श्रेणीतील संचातून अस्तित्व कोणत्या श्रेणीची आहे हे ओळखणे. हे बायनरी वर्गीकरण असू शकते - उदा. पोस्ट व्हायरल होईल की नाही हे निश्चित करणे (होय / नाही), आणि मल्टी-लेबल वर्गीकरण - उदा. उत्पादनाच्या योग्य श्रेणीसह उत्पादनाचे फोटो लेबलिंग करणे (शक्यतो शेकडो श्रेण्यांपेक्षा).

अप्रभावी शिक्षण

अबाधित शिक्षणात अल्गोरिदम इच्छित परिणामासह सेट केलेला डेटा टॅग न करता डेटामधील नमुने ओळखण्याचा प्रयत्न करतो. डेटा "लेबल न केलेले" आहे - त्यास कोणतेही अर्थपूर्ण लेबल जोडल्याशिवाय ते “आहे”. काही अबाधित शिक्षण पद्धतींद्वारे सोडवल्या जाणार्‍या काही क्लासिक समस्या आहेतः

  • क्लस्टरिंग. विशिष्ट समानतेचे निकष दिल्यास कोणत्या आयटम एकमेकांशी अधिक साम्य आहेत ते शोधा. एक क्षेत्र जिथे क्लस्टरिंग वापरला जातो तो मजकूर आहे - शोध परिणामांवर विचार करा जे बरीच कागदपत्रे परत मिळवतात जे अगदी समान असतात. क्लस्टरिंगचा उपयोग त्यांना एकत्रित करण्यासाठी आणि सर्वात भिन्न दस्तऐवज ओळखणे सुलभ करण्यासाठी केले जाऊ शकते.
  • संघटना. काही नात्यावर आधारित वस्तू बादल्यांमध्ये वर्गीकृत करा, जेणेकरून बादलीतील एका वस्तूची उपस्थिती दुसर्‍याच्या उपस्थितीचा अंदाज लावते. उदाहरणार्थ, “खरेदी केलेल्या लोकांनी… विकत घेतले…” शिफारस समस्या: मोठ्या संख्येने शॉपिंग कार्ट्सचे विश्लेषण केल्यास हे दिसून आले की शॉपिंग कार्टमध्ये एक्स उत्पादन एक्सची उपस्थिती देखील दर्शविते की उत्पादन वाय शॉपिंग कार्टमध्येही असेल, आपण त्यांच्या कार्टमध्ये उत्पादन एक्स लावलेल्या कोणासही उत्पादनाची वाईची त्वरित शिफारस करू शकता.
  • विसंगती शोध ध्वजांकित करणे आणि हाताळणे आवश्यक असलेल्या डेटामधील अनपेक्षित नमुने ओळखणे. मानक अनुप्रयोग जटिल सिस्टमसाठी फसवणूक शोधणे आणि आरोग्य देखरेख करणे आहेत. (टीपः तेथे देखरेखीची विसंगती शोधण्याची तंत्रे आहेत, परंतु अप्रिय पर्यवेक्षण तंत्रांचा वापर सामान्य आहे कारण परिभाषानुसार विसंगतींसाठी लेबल केलेला डेटा मिळविणे फारच अवघड आहे आणि पर्यवेक्षी तंत्राचा वापर करण्यासाठी ही एक पूर्व शर्त आहे.))

अर्ध-पर्यवेक्षी शिक्षण

हे पर्यवेक्षी आणि अप्रशिक्षित शिक्षणादरम्यानचे संकरीत आहे, जेथे अल्गोरिदमला काही प्रशिक्षण डेटा आवश्यक आहे परंतु पर्यवेक्षी शिक्षणापेक्षा (कमीत कमी तीव्रतेचा क्रम) कमी आहे. अल्गोरिदम एकतर पर्यवेक्षी आणि अप्रिय पर्यवेक्षण - वर्गीकरण, रीग्रेशन, क्लस्टरिंग, विसंगती शोध इत्यादी मध्ये वापरल्या जाणार्‍या पद्धतींचा विस्तार असू शकतो.

मजबुतीकरण शिक्षण

येथे अल्गोरिदम एका मर्यादित डेटासह प्रारंभ होतो आणि वेळेत त्याच्या भाकितपणाबद्दल अधिक अभिप्राय मिळत असल्याने ते शिकते.

जसे आपण पाहू शकता की आपण ज्या समस्येचे निराकरण करण्याचा प्रयत्न करीत आहात त्याव्यतिरिक्त, आपल्याकडे असलेल्या डेटाचे प्रमाण आपण वापरू शकता अशा शिक्षण पद्धतींवर परिणाम करेल. हे दुसर्‍या मार्गाने देखील लागू होते - आपल्यास शिकण्याची पद्धत वापरण्याची आवश्यकता असल्यास आपल्या समस्येचे प्रभावीपणे निराकरण करण्यासाठी आपल्याकडे आपल्यापेक्षा जास्त डेटा मिळण्याची आवश्यकता असू शकते. आम्ही त्याबद्दल नंतर चर्चा करू.

इतर सामान्य "बझवर्ड्स" लायक

या जागेवर अधिक काम करता तेव्हा अशा काही इतर अटी आपल्याशी वारंवार येतात. आम्ही चर्चा केलेल्या श्रेण्यांशी त्यांचे संबंध (किंवा त्याचा अभाव) समजून घेणे महत्वाचे आहे.

सखोल शिक्षण हे वरील परिभाषांकरिता ऑर्थोगोनल आहे. शिकण्याच्या समस्येचे निराकरण करण्यासाठी फक्त विशिष्ट प्रकारच्या यंत्रणेचा उपयोग करणे - हे निराकरण देखरेखीवर असू शकत नाही.

आर्टिफिशियल न्यूरल नेटवर्क (एएनएन) ही एक अशी शिक्षण प्रणाली आहे जी आपल्या मेंदूच्या कार्य करण्याच्या पद्धतींचे अनुकरण करण्याचा प्रयत्न करते - थरांमध्ये आयोजित केलेल्या "न्यूरॉन्स" च्या नेटवर्कद्वारे. मज्जातंतूंच्या नेटवर्कमध्ये कमीतकमी इनपुट लेयर असतो - न्यूरॉन्सचा सेट ज्याद्वारे नेटवर्कमध्ये डेटा अंतर्भूत केला जातो, एक आउटपुट लेयर - ज्या न्यूरॉन्सद्वारे परिणाम बाहेर पाठविला जातो आणि त्या दरम्यान एक किंवा अधिक थर, ज्याला “लपविलेले थर” म्हणतात. , जे संगणकीय कार्य करतात त्या थर आहेत. डीप लर्निंग म्हणजे फक्त एखादी शिकण्याची कामे पूर्ण करण्यासाठी एकापेक्षा जास्त लपलेल्या थर असलेल्या न्यूरल नेटवर्क्सचा वापर. आपण कधीही अशी नेटवर्क वापरल्यास - अभिनंदन, आपण कायदेशीररित्या बझवर्डवर देखील फेकू शकता!

परिणाम मिळविण्यासाठी एकाधिक मॉडेल्सचा वापर करणे म्हणजे प्रत्येक मॉडेल स्वतंत्रपणे प्राप्त करू शकतील त्यापेक्षा चांगले आहे. मॉडेल्स भिन्न अल्गोरिदम वर किंवा भिन्न पॅरामीटर्ससह समान अल्गोरिदम वर आधारित असू शकतात. अशी कल्पना आहे की एखादे मॉडेल इनपुट घेण्याऐवजी इनपुट घेईल आणि कोणत्या प्रकारचे अंदाज बांधू शकेल - आपल्याकडे मॉडेलचा एक संच आहे जो प्रत्येकजण अंदाजास आणेल आणि काही प्रक्रिया वेगवेगळ्या परिणामाचे वजन ठरवेल आणि त्याचे परिणाम काय ठरवतील एकत्रित गट असावा. एकत्रित करण्याच्या पद्धती वारंवार पर्यवेक्षित शिक्षणामध्ये वापरल्या जातात (त्या भविष्यवाणीच्या समस्यांमधे खूप उपयुक्त आहेत) परंतु असुरक्षित शिक्षणामध्ये देखील लागू होऊ शकतात. आपला डेटा विज्ञान कार्यसंघ कदाचित अशा पद्धतींची चाचणी करेल आणि जेव्हा योग्य असेल तेव्हा त्या लागू करेल.

नॅचरल लँग्वेज प्रोसेसिंग (एनएलपी) हे संगणक विज्ञानाचे क्षेत्र आहे जे मशीनद्वारे भाषा समजून घेण्याचे काम करते. सर्व प्रकारचे एनएलपी मशीन शिक्षण वापरत नाहीत. उदाहरणार्थ, जर आम्ही एक "टॅग क्लाउड" व्युत्पन्न केला - मजकूरात शब्द किती वेळा दिसतो त्याचे दृश्य प्रतिनिधित्व - त्यात कोणतेही शिक्षण नाही. अधिक परिष्कृत विश्लेषण आणि भाषा आणि मजकूर समजून घेण्यासाठी बर्‍याचदा एमएल आवश्यक असते. काही उदाहरणे:

  • कीवर्ड जनरेशन. मजकूराच्या मुख्य भागाचा विषय समजून घेणे आणि त्याकरिता स्वयंचलितपणे कीवर्ड तयार करणे
  • भाषा अस्थिरता. एखाद्या शब्दाच्या किंवा वाक्याच्या एकाधिक संभाव्य स्पष्टीकरणांमधून संबंधित अर्थ निश्चित करणे (हे उदाहरणांसह एक मोठे स्पष्टीकरण आहे)
  • भावना विश्लेषण मजकूरात व्यक्त केलेली भावना नकारात्मक ते सकारात्मक कोणत्या प्रमाणात आहे हे समजून घेणे
  • नामित अस्तित्व वेचा मजकूरामध्ये कंपन्या, लोक, ठिकाणे, ब्रँड इ. ओळखणे; जेव्हा नावे विशिष्ट नसतात तेव्हा हे विशेषतः कठीण असते (उदा. “मायक्रोसॉफ्ट” ही कंपनी “लक्ष्य” या कंपनीपेक्षा इंग्रजी भाषेतील शब्द आहे त्यापेक्षा ओळखणे सोपे आहे)

एनएलपी चा वापर फक्त चॅटबॉट्ससारख्या एमएलच्या भाषेभिमुख अनुप्रयोगांसाठी केला जात नाही. बर्‍याच एमएल मॉडेल्समध्ये उपयुक्त इनपुट होण्यापूर्वी डेटा तयार करण्यासाठी आणि प्रक्रिया करण्यापूर्वी याचा मोठ्या प्रमाणात वापर केला जातो. त्या नंतर आणखी.

कृपया लक्षात घ्याः वरील व्याख्या मुख्य कल्पना व्यक्त करणे आणि व्यावहारिक असणे आहे; तपशीलवार वैज्ञानिक व्याख्येसाठी कृपया इतर स्त्रोतांचा संदर्भ घ्या.

समस्येवर समाधानावर कसा प्रभाव पडतो (आणि आणखी काही की एमएल संकल्पना)

आपण एमएल सह साध्य करण्याचा प्रयत्न करीत असलेले धोरणात्मक ध्येय बरेच डाउनस्ट्रीम निर्णय घेईल. आपला डेटा विज्ञान कार्यसंघ आपल्या व्यवसायासाठी योग्य तोडगा काढू शकेल हे सुनिश्चित करण्यासाठी काही मूलभूत एमएल संकल्पना आणि आपल्या व्यवसायाच्या उद्दीष्टांवर त्यांचे परिणाम समजून घेणे महत्वाचे आहे.

अल्गोरिदम निवड

समस्येच्या व्याख्येत एक छोटासा बदल होऊ शकतो ज्याचे निराकरण करण्यासाठी पूर्णपणे भिन्न अल्गोरिदम आवश्यक आहे किंवा कमीतकमी भिन्न डेटा इनपुटसह भिन्न मॉडेल तयार केले जाईल. वापरकर्त्यांसाठी चांगले कार्य करणार्या फोटोंचे प्रकार ओळखण्यासाठी शोधणारी डेटिंग साइट कदाचित काम करणार्‍या सामान्य थीम ओळखण्यासाठी क्लस्टरिंगसारख्या अप्रशिक्षित प्रशिक्षण तंत्रांचा वापर करू शकते, जर एखाद्या विशिष्ट व्यक्तीला संभाव्य तारखांची शिफारस करणे आवश्यक असेल तर साइट इनपुटवर आधारित पर्यवेक्षी शिक्षणाचा वापर करू शकेल वैयक्तिक वापरकर्त्यासाठी विशिष्ट, जसे की त्यांनी आधीपासून पाहिलेले फोटो.

वैशिष्ट्य निवड

एमएल मॉडेल डेटामधील नमुने ओळखतात. आपण मॉडेलमध्ये फीड केलेला डेटा वैशिष्ट्यांसह व्यवस्थित केला जातो (याला व्हेरिएबल्स किंवा विशेषता देखील म्हटले जाते): हे संबंधित, मोठ्या प्रमाणात स्वतंत्र डेटाचे तुकडे आहेत ज्यांचा आपण अंदाज लावण्याची किंवा ओळखण्याचा प्रयत्न करीत असलेल्या घटनेच्या काही पैलूंचे वर्णन केले आहे.

कर्ज अर्जदारांपर्यंत पोचण्याला प्राधान्य देणारी कंपनीची मागील उदाहरण घ्या. जर आम्ही या समस्येचे वर्णन “ग्राहकांच्या रूपांतरणाच्या संभाव्यतेच्या आधारावर प्राधान्य द्या” असे केले तर आम्ही कंपनीच्या विविध प्रकारच्या आवाक्यापर्यंत समान ग्राहकांचा प्रतिसाद दर यासारख्या वैशिष्ट्यांचा समावेश करू. जर आम्ही समस्या "बहुधा ग्राहकांची कर्जे परतफेड करण्यास प्राधान्य द्या" म्हणून परिभाषित केली तर आम्ही त्या वैशिष्ट्यांचा समावेश करू शकत नाही कारण ते ग्राहकांच्या देयतेच्या संभाव्यतेचे मूल्यांकन करण्यास असंबद्ध आहेत.

वस्तुनिष्ठ कार्य निवड

उद्दीष्ट कार्य म्हणजे आपण ज्या लक्ष्यासाठी अनुकूलित आहात ते किंवा मॉडेलचा अंदाज घेण्याचा प्रयत्न करीत असलेल्या परिणामाचे. उदाहरणार्थ, आपण उत्पादनांमध्ये वापरकर्त्यास स्वारस्य असलेल्या सूचना सुचवण्याचा प्रयत्न करीत असल्यास, मॉडेलचे उत्पादन कदाचित वापरकर्त्याने ते पाहिले तर त्या उत्पादनावर क्लिक करेल याची शक्यता असू शकते. कदाचित वापरकर्ता उत्पादन खरेदी करेल ही शक्यता देखील असू शकते. वस्तुनिष्ठ कार्याची निवड प्रामुख्याने आपल्या व्यवसायाच्या उद्दीष्टावर अवलंबून असते - या उदाहरणात, आपल्याला वापरकर्त्याच्या गुंतवणूकीमध्ये अधिक रस आहे, अशा परिस्थितीत आपले उद्दीष्ट कार्य क्लिक असू शकते किंवा वेळ घालवू शकेल किंवा थेट कमाई असेल, अशा परिस्थितीत आपले उद्दीष्ट कार्य असेल. खरेदी? इतर महत्त्वाचा विचार डेटाची उपलब्धता आहे: अल्गोरिदम शिकण्यासाठी, आपल्याला त्यास बरेच डेटा पॉईंट्स फीड करावे लागतील जे “लेबल” केलेले सकारात्मक (वापरकर्त्याने पाहिलेले आणि क्लिक केलेले उत्पादने) किंवा नकारात्मक (वापरकर्त्याने पाहिलेली उत्पादने आणि वर क्लिक केले नाही). आपल्याकडे खरेदी केलेल्या उत्पादनांवर क्लिक केलेल्या (किंवा क्लिक न केलेल्या) उत्पादनांचे अधिक डेटा पॉइंट्सची ऑर्डर असण्याची शक्यता आहे.

स्पष्टीकरणयोग्यता आणि व्याख्या

एमएल मॉडेल्सचे आउटपुट बर्‍याचदा एक संख्या असते - संभाव्यता, काहीतरी घडण्याची शक्यता असते किंवा सत्य आहे याचा अंदाज. उत्पादनाच्या शिफारसी उदाहरणात, साइटवरील उत्पादनांना अशी संभाव्यता दिली जाऊ शकते की एक स्वतंत्र वापरकर्ता त्यांच्यावर क्लिक करेल आणि सर्वाधिक संभाव्यता असलेली उत्पादने वापरकर्त्यास दर्शविली जातील. परंतु हे कसे कार्य करते हे आपल्‍याला कसे माहित आहे? या प्रकरणात अल्गोरिदम कार्य करतो हे सत्यापित करणे तुलनेने सोपे आहे - आपण कदाचित एक छोटी चाचणी चालवू शकता आणि पाहू शकता. परंतु आपण ज्या श्रेणीमध्ये रँकिंग करीत आहात ते संभाव्य कर्मचारी आहेत आणि आपले मॉडेल एखाद्या कंपनीसाठी त्यांचे चांगले उमेदवार असण्याची शक्यताची चाचणी करतात तर काय? एखादा वापरकर्ता (म्हणेल, एक नोकरी घेणारा व्यवस्थापक) फक्त आपला शब्द त्यासाठी घेईल, किंवा अल्गोरिदमने व्यक्ती A च्या आधी अल्गोरिदमला A का स्थान दिले आहे हे त्यांना समजून घ्यावे लागेल?

बर्‍याच प्रकरणांमध्ये आपल्याकडे काही करण्याचे स्पष्टीकरण असेल. तथापि, बरेच एमएल अल्गोरिदम ब्लॅक बॉक्स आहेत: आपण अनेक वैशिष्ट्ये इनपुट करता आणि स्पष्ट करणे अशक्य आहे असे मॉडेल मिळवा. डेटामध्ये मशीनला आढळलेल्या नमुन्यांची अनेकदा इतकी गोंधळ उडाली जाते की माणूस शब्दात सांगणे सोपे असले तरीही त्यांचे आकलन करू शकणार नाही.

त्यानंतरच्या भागांमध्ये आम्ही हे स्पष्टपणे पाहण्याची आवश्यकता आहे की - अंतिम वापरकर्त्याने निकाल कसा प्राप्त केला हे समजण्यास सक्षम असणे आवश्यक आहे, आणि परिणामकारकता - परिणामाच्या आधारे वापरकर्त्यास कोणत्या डिग्रीवर काही निष्कर्ष काढणे आवश्यक आहे. मॉडेलिंग, वैशिष्ट्ये निवडणे आणि निकाल सादर करण्याच्या आपल्या दृष्टिकोनात एक गंभीर विचार.

मॉडेलिंग आणि कार्यप्रदर्शन मोजमाप त्रुटी पीएमंनी लक्ष दिले पाहिजे

आपले डेटा शास्त्रज्ञ डेटा प्रोसेसिंग आणि मॉडेलिंगसह काही सामान्य समस्यांचा सामना करतील परंतु त्यांच्याशी उत्पादक संभाषणे करण्यासाठी पंतप्रधानांना काही सामान्य त्रुटी समजून घेणे उपयुक्त ठरेल. ही संपूर्ण यादी नाही, परंतु त्यात येणार्‍या काही सामान्य समस्यांचा समावेश आहे.

ओव्हरफिटिंग

जेव्हा एखादे मॉडेल डेटाचे इतके जवळून अनुसरण करते तेव्हा त्याला “ओव्हरफिटेड” असे म्हटले जाते जेणेकरून डेटामधील खरा अंतर्निहित नातेसंबंधांपेक्षा जास्त आवाजाचे वर्णन केले जाते (उदाहरण पहा). मोकळेपणाने सांगायचे झाल्यास, तुम्ही प्रशिक्षित केलेल्या आकडेवारीवरील मॉडेलची अचूकता (मॉडेल “वरून शिकवते”) आपण ज्या डेटाच्या सहाय्याने प्रमाणीकरण करुन त्याची चाचणी करता त्यापेक्षा अचूकतेपेक्षा ती अधिक चांगली असेल तर आपल्याकडे अतिउत्साहीपणाचे प्रकरण असू शकते .

अत्युत्तम उदाहरण

प्रेसिजन, रिकल अँड ट्रेडऑफ बिट द

दोन अटी आहेत ज्या पहिल्यांदा तुम्ही ऐकता तेव्हा फारच गोंधळात टाकतात, परंतु त्यांचे व्यवसायाचे स्पष्ट परिणाम होत असल्याने त्यांना पूर्णपणे समजून घेणे महत्वाचे आहे.

वर्गीकरणाची अचूकता (आणि इतर सामान्यत: वापरल्या जाणार्‍या एमएल तंत्र जसे की कागदजत्र पुनर्प्राप्ती), बहुतेकदा दोन की मेट्रिक्सद्वारे मोजले जाते: प्रेसिजन आणि रिकॉल. अचूकता निर्माण झालेल्या अल्गोरिदमच्या सर्व सकारात्मक भविष्यवाण्यांपैकी खर्‍या सकारात्मक भविष्यवाण्यांचा वाटा मोजते, म्हणजेच अचूक भविष्यवाण्यांचा%. जर सुस्पष्टता एक्स% असेल तर अल्गोरिदमच्या सकारात्मक भविष्यवाण्यांपैकी X% खरे पॉझिटिव्ह आहेत आणि (100-एक्स)% चुकीचे पॉझिटिव्ह आहेत. दुस words्या शब्दांत, आपल्याकडे जितकी कमी शुद्धता असेल तितकी कमी चुकीची सकारात्मकता.

डेटामधील खर्‍या सकारात्मक गोष्टींपैकी सकारात्मक पूर्वानुमानाचा भाग म्हणजे रिकॉल होय - म्हणजे आपल्या अल्गोरिदमने सकारात्मक म्हणून ओळखण्यात व्यवस्थापित केलेल्या डेटामधील खर्‍या पॉझिटिव्हपैकी कोणता. रिकॉल एक्स% असल्यास डेटामधील खर्‍या पॉजिटिव्हच्या एक्स% ला अल्गोरिदम पॉझिटिव्ह म्हणून ओळखले गेले, तर (100-एक्स)% (खोटे) नकारात्मक म्हणून ओळखले गेले. दुसर्‍या शब्दांत, जितके जास्त असेल तितके आपल्याकडे कमी चुकीचे नकारात्मक स्मरण होईल.

सुस्पष्टता आणि आठवण्याचा दरम्यान नेहमीच व्यापार असतो. आपल्याला कोणतीही चुकीची पॉझिटिव्ह नको असल्यास - म्हणजे आपल्याला अधिक शुद्धतेची आवश्यकता असेल तर अल्गोरिदममध्ये अधिक खोटी नकारात्मकता असेल, म्हणजे कमी आठवणे, कारण चुकीचे म्हणून चुकीचे लेबल लावण्यापेक्षा एखाद्या गोष्टीला नकारात्मक म्हणून लेबल देणे "प्राधान्य" असेल, आणि उलटपक्षी. हा ट्रेडऑफ हा व्यवसायाचा निर्णय आहे. कर्ज अर्जाचे उदाहरण घ्याः त्याऐवजी आपण ते सुरक्षितपणे खेळावे आणि केवळ अर्जदारांनाच स्वीकारावे ज्याची आपण खात्री बाळगण्यास पात्र आहात. अशा प्रकारे काही चांगले ग्राहक नाकारण्याची शक्यता वाढवते (उच्च अचूकता, कमी रिकॉल = कमी खोटे सकारात्मक, अधिक खोटे नकारात्मक) , किंवा अधिक कर्ज अर्जदार स्वीकारा जे नाकारले जावेत परंतु चांगले ग्राहक गहाळ होण्याचा धोका असू नये (उच्च आठवण्याचा परंतु कमी तंतोतंत = कमी खोटे नकारात्मक, अधिक खोटे पॉझिटिव्ह)? ही आपण ऑप्टिमायझेशनची समस्या असल्याचे सोप्या पद्धतीने सांगू शकता, परंतु ग्राहकांच्या भावना (उदा. अन्यायकारकपणे नाकारलेले ग्राहक संतप्त व बोलके होतील), ब्रँड जोखीम (उदा. अंडररायटर म्हणून आपली प्रतिष्ठा यावर अवलंबून असते) कमी कर्ज डीफॉल्ट रेट), कायदेशीर जबाबदा etc.्या इत्यादीमुळे, हा खूप डेटा व्यवसाय नाही, डेटा विज्ञान नाही.

बहुधा दिशाभूल करणारी मॉडेल अचूकता मेट्रिक

केवळ मॉडेलची अचूकता कोणत्याही मॉडेलसाठी चांगली उपाय नाही. लोकसंख्येमध्ये ०.१% इतका प्रमाण असलेल्या आजाराची कल्पना करा. एखादे मॉडेल असे म्हणतात की कोणत्याही रुग्णाला इनपुटकडे दुर्लक्ष करून हा आजार नसतो 99.9% अचूक आहे, परंतु पूर्णपणे निरुपयोगी आहे. व्यवसायाच्या आवश्यकतेनुसार नेहमीच तंतोतंतपणा लक्षात ठेवणे आणि आठवणे आणि त्यांना संतुलित करणे महत्वाचे आहे. जेव्हा संभाव्य निकालांचे वितरण बरेच एकसारखे असते तेव्हा अचूकता चांगली मेट्रिक असते आणि खोट्या सकारात्मक आणि खोट्या नकारात्मक गोष्टींचे महत्त्व देखील समान असते, जे क्वचितच घडते.

सरासरी मेट्रिक्स आणि असंतुलित प्रशिक्षण डेटा

जेव्हा आपण एका मॉडेलला संबोधित करण्यासाठी आवश्यक असलेल्या एकाधिक विभागांसह कार्य करत असाल तेव्हा आपल्याला प्रत्येक विभागातील कार्यप्रदर्शन मेट्रिक्सकडे (किंवा कमीतकमी महत्वाचे असलेले) स्वतंत्रपणे पहाण्याची आवश्यकता आहे. उदाहरणार्थ वर्गीकरण मॉडेल घ्या जे फोटोमधील प्राण्यांच्या प्रकारानुसार एका श्रेणीमधील फोटोंचे वर्गीकरण करते. मॉडेलची एकूण सुस्पष्टता / रेकल्स संख्या अशा परिस्थितीत प्रतिबिंबित करू शकत नाही जिथे काही श्रेणींमध्ये उत्तम सुस्पष्टता असते तर काहींमध्ये अगदी कमी सुस्पष्टता असते. जेव्हा आपल्याकडे आपल्या प्रशिक्षण डेटामध्ये असंतुलन असते तेव्हा असे होते - असे सांगा की आपल्याकडे मांजरी आणि कुत्र्यांचे 1000 लेबल फोटो आहेत आणि अस्वलचे फक्त 10 फोटो आहेत. आपली एकूण सुस्पष्टता खूपच जास्त असू शकते कारण बहुतेक मांजरी आणि कुत्र्यांचे फोटो योग्य प्रकारे वर्गीकृत केले जातील, तर सर्व अस्वल अज्ञात आहेत कारण मॉडेलशी संबंधित कोणताही डेटा नाही. जर त्या कमी वारंवार श्रेणी आपल्या व्यवसायासाठी महत्त्वाच्या असतील तर आपल्याला आपले मॉडेल बोर्डवर चांगले कार्य करण्यासाठी त्यांच्याकडून प्रशिक्षण डेटा मिळविण्यासाठी एकत्रित प्रयत्नांची आवश्यकता असू शकते.

ठीक आहे - ते खूपच लांब होते, परंतु आशा आहे की आपल्याकडे आता सर्व तांत्रिक मूलतत्त्वे चांगल्या प्रकारे समजल्या आहेत. पुढे, आदर्शवत निर्मितीपासून उत्पादन सुरू करण्यापर्यंत आम्ही मॉडेल विकसित करण्याच्या विस्तृत, चरण-दर-चरण प्रक्रियेद्वारे पुढे जाऊ.

आपल्याला ही पोस्ट मनोरंजक वाटली असल्यास, कृपया मला कळवण्यासाठी कृपया खाली हिरव्यागार हृदयावर क्लिक करा किंवा आपल्याला उपयुक्त वाटेल अशा एखाद्यासह सामायिक कराल? तो माझा दिवस पूर्णपणे बनवेल!