Informaatika

Masinõppe tüübid

Termin masinõpe (automaatne õppimine) viitab tehisintellekti maailma kuuluvale mehhanismide kogumile. Masinõpet on kolme tüüpi: juhendatud, järelevalveta ja tugevdav õpe.

Need mehhanismid võimaldavad intelligentsel masinal aja jooksul oma võimeid ja jõudlust parendada, õppides kogemustega automaatselt teatud toiminguid tegema, parandades aja jooksul selle jõudlust üha enam.

Näide on AlphaGo, masinõppetarkvara mängule Go jaoks, mille on välja töötanud Deepmind. AlpaGo oli esimene tarkvara, mis suutis lennukis mängus inimmeistrist jagu saada goban standardsuurus (19 × 19). AlphaGo tarkvara õpetati jälgides miljoneid Go mängijate liigutusi erinevate mängude ajal ja lastes masinal enda vastu mängida, mille tulemusena suutis see võita selle mängu maailma parimaks peetud mängijat.

Vaatame nüüd masinõppe kolme põhikategooriat.

Juhendatud õpe

Süsteem võtab vastu näidised, mis on märgistatud vastavalt soovitud väljundile. See tähendab, et masina juhendamiseks kasulikud andmekogumid koosnevad elementidest, mis kujutavad tegelikke olukordi, mis koosnevad sisendandmetest "Omadused"Ja väljundandmetest"sihtmärk". Viidates artikli näitele Mis on masinõpe, mis see on ja selle eesmärgid, koolituse ettevalmistamine oli juhendatud tüüpi, kuna meil olid marsruutide üksikjuhtumid, mille jaoks olid määratud omadused (sõiduk, marsruut) ja sihtmärk (reisiaeg). Andmekogumid on tavaliselt palju keerukamad, näide oli äärmiselt piiratud ja didaktiline, eesmärgiga lihtsustada juhendatud masinõppe mõistmist.

Seda tüüpi juhtum võimaldab algoritmil uurida marsruudi ja sõiduki tüübi alusel, milline võiks olla sõiduaeg. Järelevalvega masinõppes on kahte tüüpi probleeme.

regressioon: kui sihtmärk koosneb pidevast muutujast, see on suurus, arv;
klassifikatsioon: kui sihtmärki saab esindada klassi või kategooriaga.

Kiirteede trasside näidet uuesti vaadates võib öelda, et tegemist on taandarenguga. Kui eesmärk koosnes sellisest hindamisest nagu: kiire, kui alla tunni, aeglane 1–XNUMX tundi, väga aeglane, kui üle kahe tunni. Sel juhul oleks see olnud klassifitseerimisprobleem.

Järelevalveta õppimine

Sildistatud andmeid ei ole, see on süsteem, mis alustades sisenditest peab leidma andmetes struktuuri. Meil praktiliselt pole sihtmärke, vaid on ainult sisendandmed. Nagu näites oleks meil ainult marsruudi ja sõiduki andmed, kuid mitte reisiaja andmed.

Selle lähenemisviisi puhul peavad algoritmid tuvastama kategooriad, otsides andmetest peidetud struktuure. Peamised tööriistad, mida saab järelevalveta lähenemisel kasutada, on Klastrite loomine ja ühingu reeglid.

Tugevdusõpe

Süsteem saab keskkonnast sisendi ja tegutseb. Süsteem proovib preemiate saamiseks midagi ette võtta. Süsteem püüab rakendada toiminguid, mis optimeerivad tasu sõltuvalt ümbritseva keskkonna seisundist.

Preemiasüsteemi rakendatakse läbi komponendi, nn agent. Agent otsustab toimingu, mis tuleb keskkonnale läbi viia, ja sellest saab ta selle auhind ja võimalik, et teave keskkonnaseisundi kohta algatatud tegevuse tulemusena.

Näiteks kui mõelda malemängule pühendatud süsteemile, on agent komponent, mis käigu otsustab, keskkond aga mäng ise. Iga agendi tehtud liigutuse tagajärjel muutub mängu seis (selle all mõistetakse hetkeolukorda, kõikide nuppude asetust, ka vastase käigu tagajärjel), saades tagasisidet kui vastase nupp ära söödud, seega mõeldud preemiaks kolimise eest. Sel viisil agent õpib ja harib ennast.

Järeldused

Seetõttu on ilmne, et valik masinõppe tüüpide vahel sõltub kontekstist. See tähendab, et lähenemisviisi tüüp valitakse olemasolevate andmete põhjal ja võimalusel omada ajalugu, mis sisaldab iga üksikjuhtumi asjaolude kirjeldust (sisend) ja ka tulemust (väljund). Nii et seda tüüpi andmekogumiga saate jätkata järelevalvega lähenemisviisi kasutamist.

Teisest küljest, kui teil pole võimalust väljundandmeid (sihtmärki) a priori teada või soovite avastada uusi sihtmärke, siis on vaja tuvastada sisendandmete vahelised seosed, et avastada olukorrad, mida väljundis kunagi varem ei esinenud. ajalugu või silmitsi õppimisega keskkonda, mis areneb ja reageerib. Sel juhul tuleb valida järelvalveta või tugevdustehnikad.

Ercole Palmeri: Innovatsioonisõltuvus