મશીન લર્નિંગ એલ્ગોરિધમ્સનું વર્ગીકરણ: રેખીય રીગ્રેસન, વર્ગીકરણ અને ક્લસ્ટરીંગ

મશીન લર્નિંગમાં ગાણિતિક optimપ્ટિમાઇઝેશન સાથે ખૂબ સમાનતાઓ છે, જે પદ્ધતિઓ, સિદ્ધાંતો અને એપ્લિકેશન ડોમેન્સ પ્રદાન કરે છે.

મશીન લર્નિંગને ઉદાહરણ આપેલા સમૂહ (તાલીમ સમૂહ) ની વિરુદ્ધ નુકસાનના કાર્યને "ઘટાડવાની સમસ્યાઓ" તરીકે ઘડવામાં આવે છે. આ સુવિધા મ trainedડેલ દ્વારા પ્રશિક્ષિત હોવાના આગાહી કરેલા મૂલ્યો અને દરેક ઉદાહરણ માટે અપેક્ષિત મૂલ્યો વચ્ચેના તફાવતને વ્યક્ત કરે છે.

અંતિમ ધ્યેય એ છે કે પ્રશિક્ષણ સેટમાં હાજર ન હોય તેવા દાખલાઓના સેટ પર મોડેલને યોગ્ય રીતે આગાહી કરવાની ક્ષમતા શીખવવી.

એક પદ્ધતિ કે જેના અનુસાર અલ્ગોરિધમની વિવિધ શ્રેણીઓને અલગ પાડવાનું શક્ય છે તે ચોક્કસ સિસ્ટમમાંથી અપેક્ષિત આઉટપુટનો પ્રકાર છે. મશીન શિક્ષણ.

અમને જોવા મળેલી મુખ્ય કેટેગરીમાં:

La વર્ગીકરણ: ઇનપુટ્સને બે કે તેથી વધુ વર્ગોમાં વહેંચવામાં આવે છે અને લર્નિંગ સિસ્ટમએ ઇનપુટ માટે ઉપલબ્ધ તે વચ્ચે એક અથવા વધુ વર્ગો સોંપવામાં સક્ષમ મોડેલ બનાવવું આવશ્યક છે.આ પ્રકારના કાર્યો ખાસ કરીને નિરીક્ષણ શિક્ષણ તકનીકોનો ઉપયોગ કરીને સંબોધવામાં આવે છે.
વર્ગીકરણનું ઉદાહરણ એ છે કે તેમાં શામેલ orબ્જેક્ટ્સ અથવા વિષયોના આધારે એક અથવા વધુ લેબલ્સની સોંપણી;
La પ્રત્યાગમાન: આઉટપુટ સતત અને બિન-સ્વતંત્ર ડોમેન ધરાવતા તફાવત સાથે વર્ગીકરણની સમાન વિભાવના સમાન છે.તે સામાન્ય રીતે નિરીક્ષણ કરેલ શિક્ષણ દ્વારા સંચાલિત થાય છે.
રીગ્રેસનનું ઉદાહરણ એ છે કે રંગની છબીના રૂપમાં તેના રજૂઆતથી કોઈ દ્રશ્યની .ંડાઈનો અંદાજ.

હકીકતમાં, પ્રશ્નમાંના આઉટપુટનું ડોમેન વર્ચ્યુઅલ રીતે અનંત છે, અને શક્યતાઓના ચોક્કસ સ્વતંત્ર સમૂહ સુધી મર્યાદિત નથી;
Il ક્લસ્ટરીંગ: તે ક્યાં છે ડેટાના સમૂહને જૂથોમાં વહેંચવામાં આવે છે જે, જો કે, વર્ગીકરણથી વિપરીત, કોઈ પ્રાયોરી નથી ઓળખાય.આ કેટેગરીથી સંબંધિત સમસ્યાઓનો સ્વભાવ સામાન્ય રીતે તેમને બિનસલાહભર્યા શીખવાની ક્રિયાઓ બનાવે છે.

સરળ રેખીય રીગ્રેસન મોડેલ

રેખીય રીગ્રેસન છુંવાસ્તવિક મૂલ્યોના અંદાજ માટે ઉપયોગમાં લેવાતા વ્યાપકપણે ઉપયોગમાં લેવામાં આવતા મ modelડેલ જેમ કે:

મકાનોની કિંમત,
કોલ્સની સંખ્યા,
વ્યક્તિ દીઠ કુલ વેચાણ,

અને સતત ચલોના માપદંડને અનુસરે છે:

ચોરસ મીટર,
વર્તમાન ખાતામાં સબ્સ્ક્રિપ્શન,
વ્યક્તિનું શિક્ષણ

રેખીય રીગ્રેસનમાં, સ્વતંત્ર ચલો અને આશ્રિત ચલો વચ્ચેનો સંબંધ એક રેખા દ્વારા અનુસરવામાં આવે છે જે સામાન્ય રીતે બે ચલો વચ્ચેના સંબંધને રજૂ કરે છે.

ફીટ લાઇનને રીગ્રેશન લાઇન તરીકે ઓળખવામાં આવે છે અને તે વાય = એ * એક્સ + બી પ્રકારનાં રેખીય સમીકરણ દ્વારા રજૂ થાય છે.

સૂત્ર એકબીજા સાથે બે અથવા વધુ લાક્ષણિકતાઓને જોડવા માટે ડેટાને ઇંટરપોલેટિંગ પર આધારિત છે. જ્યારે તમે અલ્ગોરિધમને ઇનપુટ લાક્ષણિકતા આપો છો, ત્યારે રીગ્રેસન અન્ય લાક્ષણિકતા આપે છે.

મલ્ટીપલ રેખીય રીગ્રેસન મોડેલ

જ્યારે આપણી પાસે એક કરતા વધુ સ્વતંત્ર ચલ હોય, તો પછી આપણે મલ્ટિપલ રેખીય રીગ્રેસનની વાત કરીએ, નીચેના જેવું એક મોડેલ ધારીને:

y = બી₀ + બી₁x₁ + બી₂x₂ +… + બી_nx_n

y એ મૂલ્યોનો પ્રતિસાદ છે, એટલે કે તે મોડેલ દ્વારા આગાહી કરાયેલ પરિણામને રજૂ કરે છે;
b₀ એક્સસેપ્ટ છે, તે y ની વેલ્યુ છે જ્યારે x_iતેઓ બધા 0 ની બરાબર છે;
પ્રથમ લાક્ષણિકતા બી₁ x નો ગુણાંક છે₁;
હજુ સુધી બીજું લક્ષણ બી_n x નો ગુણાંક છે_n;
x₁,x₂, ..., એક્સ_n મોડેલના સ્વતંત્ર ચલો છે.

મૂળભૂત રીતે આ સમીકરણ સતત આશ્રિત ચલ (વાય) અને બે અથવા વધુ સ્વતંત્ર ચલો (x1, x2, x3…) વચ્ચેના સંબંધને સમજાવે છે.

ઉદાહરણ તરીકે, જો આપણે એન્જિન પાવર, સિલિન્ડરોની સંખ્યા અને બળતણ વપરાશને ધ્યાનમાં લઈને કાર (આશ્રિત ચલ વાય) ના સીઓ 2 ઉત્સર્જનનો અંદાજ કા wantedવા માંગતા હોય તો. આ પછીનાં પરિબળો એ સ્વતંત્ર ચલો x1, x2 અને x3 છે. કોન્સ્ટન્ટ્સ બે વાસ્તવિક સંખ્યાઓ છે અને તે મ modelડેલના અંદાજિત રીગ્રેસન ગુણાંક તરીકે ઓળખાય છે વાય એ સતત આશ્રિત ચલ છે, એટલે કે બી 0, બી 1 એક્સ 1, બી 2 એક્સ 2, વગેરેનો સરવાળો. y એક વાસ્તવિક સંખ્યા હશે.

મલ્ટીપલ રીગ્રેસન એનાલિસિસ એ એક પદ્ધતિ છે જે અસરને ઓળખવા માટે વપરાય છે જે સ્વતંત્ર ચલો આશ્રિત ચલ પર હોય છે.

સ્વતંત્ર ચલો ફેરફાર તરીકે આશ્રિત ચલ કેવી રીતે બદલાય છે તે સમજવાથી આપણને વાસ્તવિક પરિસ્થિતિઓમાં થતા ફેરફારોની અસરો અથવા અસરોની આગાહી કરવાની મંજૂરી મળે છે.

બહુવિધ રેખીય રીગ્રેસનનો ઉપયોગ કરીને તે સમજવું શક્ય છે કે ઉંમર, લિંગ, વગેરે જેવા પરિબળોને ધ્યાનમાં લઈને, શરીરના સમૂહ અનુક્રમણિકામાં ફેરફાર થતાં બ્લડ પ્રેશર કેવી રીતે બદલાય છે, આમ ધારીને કે શું થઈ શકે.

બહુવિધ રીગ્રેસનથી આપણે ભાવોના વલણો જેવા અંદાજ મેળવી શકીએ છીએ, જેમ કે તેલ અથવા સોનાના ભાવિ વલણ.

આખરે, મલ્ટિપલ રેખીય રીગ્રેસન મશીન લર્નિંગ અને કૃત્રિમ બુદ્ધિના ક્ષેત્રમાં વધુ રસ શોધી રહ્યું છે કારણ કે તે વિશ્લેષણ કરવા માટે મોટી સંખ્યામાં રેકોર્ડ હોવાના કિસ્સામાં પણ પર્ફોર્મિંગ લર્નિંગ મોડેલો મેળવવાની મંજૂરી આપે છે.

લોજિસ્ટિક રીગ્રેસન મોડેલ

લોજિસ્ટિક રીગ્રેસન એ આંકડાકીય સાધન છે જેનો હેતુ એક અથવા વધુ સ્પષ્ટતા ચલો સાથે દ્વિપક્ષીય પરિણામનું મોડેલ બનાવવાનું છે.

તેનો ઉપયોગ સામાન્ય રીતે બાઈનરી સમસ્યાઓ માટે થાય છે, જ્યાં ફક્ત બે વર્ગો હોય છે, ઉદાહરણ તરીકે હા અથવા ના, 0 અથવા 1, પુરુષ અથવા સ્ત્રી વગેરે ...

આ રીતે ડેટાનું વર્ણન કરવું અને દ્વિસંગી આશ્રિત ચલ અને એક અથવા વધુ સ્વતંત્ર નજીવા અથવા ઓર્ડિનલ ચલો વચ્ચેના સંબંધને સમજાવવાનું શક્ય છે.

પરિણામ લોજિસ્ટિક ફંક્શનના ઉપયોગને કારણે નક્કી કરવામાં આવે છે, જે સંભવિતતાનો અંદાજ કાઢે છે અને પછી defiપ્રાપ્ત સંભાવના મૂલ્યની નજીકના વર્ગ (સકારાત્મક અથવા નકારાત્મક) ને સમાપ્ત કરે છે.

ના પરિવારને વર્ગીકૃત કરવાની એક પદ્ધતિ તરીકે આપણે લોજિસ્ટિક રીગ્રેસનને ધ્યાનમાં લઈ શકીએ છીએ નિરીક્ષણ શિક્ષણ એલ્ગોરિધમ્સ.

આંકડાકીય પદ્ધતિઓનો ઉપયોગ કરીને, લોજિસ્ટિક રીગ્રેશન પરિણામ ઉત્પન્ન કરવાની મંજૂરી આપે છે, જે હકીકતમાં, સંભાવનાને રજૂ કરે છે કે આપેલ ઇનપુટ મૂલ્ય આપેલા વર્ગની છે.

દ્વિપક્ષીય લોજિસ્ટિક રીગ્રેસન સમસ્યાઓમાં, આઉટપુટ એક વર્ગનું છે તેની સંભાવના પી હશે, જ્યારે તે બીજા વર્ગ 1-પી સાથે સંબંધિત છે (જ્યાં પી 0 અને 1 ની વચ્ચેની સંખ્યા છે કારણ કે તે સંભાવના વ્યક્ત કરે છે).

દ્વિપક્ષીય લોજિસ્ટિક રીગ્રેસન તે બધા કેસોમાં સારી રીતે કાર્ય કરે છે જેમાં આપણે જે ચલની આગાહી કરવાનો પ્રયાસ કરી રહ્યા છીએ તે દ્વિસંગી છે, એટલે કે, તે ફક્ત બે કિંમતો લઈ શકે છે: મૂલ્ય 1 જે સકારાત્મક વર્ગનું પ્રતિનિધિત્વ કરે છે, અથવા મૂલ્ય 0 જે નકારાત્મક વર્ગનું પ્રતિનિધિત્વ કરે છે.

લોજિસ્ટિક રીગ્રેસન દ્વારા ઉકેલી શકાય તેવી સમસ્યાઓનાં ઉદાહરણો છે:

એક ઈ મેલ સ્પામ છે કે નહીં;
purchaseનલાઇન ખરીદી કપટપૂર્ણ છે કે નહીં, ખરીદીની શરતોનું મૂલ્યાંકન;
દર્દીને અસ્થિભંગ થાય છે, તેની રેડીઆઈનું મૂલ્યાંકન કરે છે.

લોજીસ્ટીક રીગ્રેસન સાથે આપણે આગાહીયુક્ત વિશ્લેષણ કરી શકીએ છીએ, આપણે જે આગાહી કરીએ છીએ (આશ્રિત ચલ) અને એક અથવા વધુ સ્વતંત્ર ચલો, એટલે કે લાક્ષણિકતાઓ વચ્ચેના સંબંધને માપવા. સંભાવનાનો અંદાજ લોજિસ્ટિક ફંક્શન દ્વારા કરવામાં આવે છે.

સંભાવનાઓ પછીથી દ્વિસંગી મૂલ્યોમાં પરિવર્તિત થાય છે, અને આગાહીને વાસ્તવિક બનાવવા માટે, આ પરિણામ તે વર્ગને સોંપેલ છે કે જેનો તે સંબંધિત છે, તે વર્ગની નજીક જ છે કે નહીં તેના આધારે.

ઉદાહરણ તરીકે, જો લોજિસ્ટિક ફંક્શનની એપ્લિકેશન 0,85 પરત આપે છે, તો તેનો અર્થ એ છે કે ઇનપુટ તેને 1 વર્ગમાં સોંપીને સકારાત્મક વર્ગ ઉત્પન્ન કર્યો છે તેનાથી વિરુદ્ધ જો તે 0,4 અથવા વધુ સામાન્ય જેવા મૂલ્ય પ્રાપ્ત કરે છે <0,5 ..

ઇનપુટ મૂલ્યોના વર્ગીકરણનું મૂલ્યાંકન કરવા માટે લોજિસ્ટિક રીગ્રેસન લોજિસ્ટિક ફંક્શનનો ઉપયોગ કરે છે.

લ logજિસ્ટિક ફંક્શન, જેને સિગ્મidઇડ પણ કહેવામાં આવે છે, તે એક વળાંક છે જે કોઈપણ સંખ્યાને વાસ્તવિક મૂલ્ય લેવાની અને તેને મેદાનમાં મૂકવા માટે સક્ષમ હોય છે 0 અને 1 ની વચ્ચે મૂલ્યને બાકાત રાખીને. આ કાર્ય છે:

તે ક્યાં છે:

e: નેચરલ લોગરીધમ્સનો આધાર (યુલરની સંખ્યા, અથવા એક્સેલ ફંક્શન એક્સપ ())
b0 + b1 * x: તે વાસ્તવિક આંકડાકીય મૂલ્ય છે જે તમે રૂપાંતરિત કરવા માંગો છો.

રજૂઆત લોજીસ્ટિક રીગ્રેસન માટે વપરાય છે

લોજીસ્ટીક રીગ્રેસન, રેખીય રીગ્રેસન જેવા, રજૂઆત તરીકેના સમીકરણનો ઉપયોગ કરે છે

આઉટપુટ વેલ્યુ (વાય) ની આગાહી કરવા માટે ઇનપુટ વેલ્યુ (એક્સ) એ વજન અથવા ગુણાંકના મૂલ્યોનો ઉપયોગ કરીને રેખીય રીતે જોડવામાં આવે છે. રેખીય રીગ્રેસનનો મુખ્ય તફાવત એ છે કે મોડેલિંગ આઉટપુટ મૂલ્ય એ સંખ્યાત્મક મૂલ્યને બદલે બાઈનરી મૂલ્ય (0 અથવા 1) છે.

અહીં લોજિસ્ટિક રીગ્રેસન સમીકરણનું ઉદાહરણ છે:

y = e^(b0 + b1 * x) / (1 + e^(b0 + b1 * x))

ડવ:

y એ આશ્રિત ચલ છે, એટલે કે અનુમાનિત મૂલ્ય;
બી 0 ધ્રુવીકરણ અથવા ઇન્ટરસેપ્ટ શબ્દ છે;
બી 1 એ એક ઇનપુટ મૂલ્ય (x) માટે ગુણાંક છે.

ઇનપુટ ડેટામાં દરેક ક columnલમમાં સંકળાયેલ બી ગુણાંક (સતત વાસ્તવિક મૂલ્ય) હોય છે જે તાલીમ ડેટામાંથી શીખવું આવશ્યક છે.

તમે મેમરીમાં અથવા ફાઇલમાં સંગ્રહિત કરશો તે મોડેલની વાસ્તવિક રજૂઆત એ સમીકરણ (બીટા અથવા બી મૂલ્ય) માં ગુણાંક છે.

લોજિસ્ટિક રીગ્રેસન સંભાવનાઓની આગાહી કરે છે (તકનીકી શ્રેણી)

લોજિસ્ટિક રીગ્રેસન મોડેલો મૂળભૂત વર્ગની સંભાવના.

ઉદાહરણ તરીકે, ચાલો ધારીએ કે આપણે લોકોની જાતિને તેમની heightંચાઇથી પુરુષ અથવા સ્ત્રી તરીકે મોડેલિંગ કરી રહ્યા છીએ, પ્રથમ વર્ગ પુરુષ હોઈ શકે છે, અને લોજિસ્ટિક રીગ્રેસન મોડેલને વ્યક્તિની heightંચાઈ, અથવા વધુ આપવામાં આવતા પુરુષની સંભાવના તરીકે લખી શકાય છે. formalપચારિક:

પી (લૈંગિક = પુરુષ | heightંચાઈ)

બીજી રીતે લખવામાં આવ્યું છે, અમે સંભાવનાનું મોડેલિંગ કરી રહ્યા છીએ કે ઇનપુટ (X) વર્ગ પૂર્વ સાથે સંબંધિત છેdefinite (Y = 1), આપણે તેને આ રીતે લખી શકીએ છીએ:

પી (એક્સ) = પી (વાય = 1 | એક્સ)

સંભાવનાની આગાહી ખરેખર સંભાવનાની આગાહી કરવા માટે દ્વિસંગી મૂલ્યો (0 અથવા 1) માં પરિવર્તિત થવી આવશ્યક છે.

લોજીસ્ટીક રીગ્રેસન એક રેખીય પદ્ધતિ છે, પરંતુ આગાહીઓ લોજિસ્ટિક ફંક્શનની મદદથી રૂપાંતરિત થાય છે. આની અસર એ છે કે આપણે રેખીય રીગ્રેસન સાથે આપણે ઇનપુટ્સના રેખીય સંયોજન તરીકે આગાહીઓ લાંબા સમય સુધી સમજી શકતા નથી, ઉદાહરણ તરીકે, ઉપરથી ચાલુ રાખીને, મોડેલને આ રીતે વ્યક્ત કરી શકાય છે:

p(X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

હવે આપણે નીચે મુજબ સમીકરણ ઉલટાવી શકીએ. તેનાથી વિપરીત થવા માટે આપણે બીજી બાજુએ કુદરતી લોગરીધમ ઉમેરીને એક બાજુએ ઇને દૂર કરીને આગળ વધી શકીએ છીએ.

ln (p (X) / 1 - p (X)) = b0 + b1 * X

આ રીતે અમને એ હકીકત મળે છે કે જમણી બાજુના આઉટપુટની ગણતરી ફરીથી રેખીય છે (રેખીય રીગ્રેસનની જેમ), અને ડાબી બાજુએ ઇનપુટ એ ડિફ defaultલ્ટ વર્ગની સંભાવનાનો લોગરીધમ છે.

સંભાવનાઓ કોઈ ઘટનાની સંભાવના દ્વારા વહેંચાયેલ ઇવેન્ટની સંભાવનાના ગુણોત્તર તરીકે ગણવામાં આવે છે, દા.ત. 0,8 / (1-0,8) જેનું પરિણામ is છે તેથી અમે તેના બદલે લખી શકીએ:

ln (અવરોધો) = b0 + b1 * X

સંભાવનાઓ લોગ-રૂપાંતરિત હોવાથી, અમે આને ડાબી બાજુવાળા લોગ-અવરોધો અથવા પ્રોબિટ કહીએ છીએ.

અમે ઘાતકને જમણી બાજુ પરત કરી શકીએ અને તેને આ રીતે લખી શકીએ:

સંભાવના = e ^ (b0 + b1 * X)

આ બધું આપણને એ સમજવામાં મદદ કરે છે કે ખરેખર મોડલ હજુ પણ ઇનપુટ્સનું રેખીય સંયોજન છે, પરંતુ આ રેખીય સંયોજન પૂર્વ વર્ગની લોગ સંભાવનાઓનો સંદર્ભ આપે છે.defiનીતા

લોજિસ્ટિક રીગ્રેસન મોડેલ શીખવી

લ learningજિસ્ટિક રીગ્રેસન એલ્ગોરિધમનો ગુણાંક (બીટા અથવા બી મૂલ્યો) શીખવાના તબક્કામાં અંદાજવામાં આવે છે. આ કરવા માટે, અમે મહત્તમ સંભાવનાનો ઉપયોગ કરીએ છીએ.

મહત્તમ સંભાવના અંદાજ એ એક લર્નિંગ અલ્ગોરિધમ છે જેનો ઉપયોગ અનેક મશીન લર્નિંગ અલ્ગોરિધમ્સ દ્વારા કરવામાં આવે છે. મૉડલમાંથી પરિણામી ગુણાંક પ્રિ-સ્કૂલ ક્લાસ માટે 1 (દા.ત. પુરુષ) ની ખૂબ નજીકના મૂલ્યની આગાહી કરે છે.defiનાઈટ અને અન્ય વર્ગ માટે 0 (દા.ત. સ્ત્રી) ની ખૂબ નજીકનું મૂલ્ય. લોજિસ્ટિક રીગ્રેસન માટેની મહત્તમ સંભાવના એ ગુણાંક (બીટા અથવા ઓબ મૂલ્યો) માટે મૂલ્યો શોધવાની પ્રક્રિયા છે જે ડેટાની તુલનામાં મોડેલ દ્વારા અનુમાનિત સંભાવનાઓમાં ભૂલને ઘટાડે છે (દા.ત. સંભાવના 1 જો ડેટા પ્રાથમિક વર્ગ છે) .

અમે તાલીમ ડેટા માટેના શ્રેષ્ઠ ગુણાંકના મૂલ્યોને izeપ્ટિમાઇઝ કરવા માટે લઘુતમકરણ અલ્ગોરિધમનો ઉપયોગ કરીશું. આ ઘણીવાર કાર્યક્ષમ સંખ્યાત્મક optimપ્ટિમાઇઝેશન એલ્ગોરિધમનો ઉપયોગ કરીને વ્યવહારમાં લાગુ કરવામાં આવે છે.

Ercole Palmeri