Ezek a mechanizmusok lehetővé teszik az intelligens gép számára, hogy idővel javítsa képességeit és teljesítményét, automatikusan megtanulja a tapasztalatokat bizonyos feladatok elvégzésére, és az idővel egyre jobban javítsa teljesítményét.
Egy példa az AlphaGo, Machine Learning szoftver a Go játékhoz fejlesztette DeepMind. Az AlpaGo volt az első olyan szoftver, amely képes volt legyőzni egy emberi mestert a játékban egy repülőgépen goban szabványos méret (19 × 19). Az AlphaGo szoftvert úgy oktatták, hogy megfigyelték a Go játékosok több millió mozdulatát a különböző játékok során, és a gépet önmaga ellen játszották, aminek eredményeként képes volt legyőzni a világ legjobb játékosának hitt játékosát.
Nézzük most a gépi tanulás három fő kategóriáját.
A rendszer a kívánt kimenetnek megfelelően felcímkézett példákat kap. Ez azt jelenti, hogy a gép utasításához hasznos adatkészletek olyan elemekből állnak, amelyek valós helyzeteket reprezentálnak, amelyek bemeneti adatokból állnak.jellemzők"És a kimeneti adatokból"cél". A cikk példájára hivatkozva Mi a gépi tanulás, miről szól és céljai, a tréning előkészítése felügyelt típusú volt, mivel egyedi eseteink voltak az útvonalaknak, amelyek mindegyikéhez jellemzők (jármű, útvonal) és cél (utazási idő) kerültek meghatározásra. Az adatkészletek általában sokkal összetettebbek, a példa rendkívül korlátozott és didaktikus volt, azzal a céllal, hogy egyszerűsítse a felügyelt gépi tanulás megértését.
Egy ilyen típusú eset lehetővé teszi, hogy az algoritmus megvizsgálja az útvonal és a jármű típusának alapját, mennyi lehet az utazási idő. A felügyelt gépi tanulásban kétféle probléma létezik:
Újragondolva az autópálya-útvonalak példáját, azt mondhatjuk, hogy regresszióról van szó. Ha a cél olyan értékelésből állt, mint például: gyors, ha egy óra alatt, lassú 1 és XNUMX óra között, nagyon lassú, ha több mint két óra. Ebben az esetben osztályozási probléma lett volna.
Címkézett adat nincs, a bemenetekből kiindulva a rendszernek kell struktúrát találnia az adatokban. Gyakorlatilag nincsenek célpontjaink, csak input adataink vannak. Mintha a példában csak az útvonal és a jármű adatai lennének, az utazási idő adatok nem.
Ebben a megközelítésben az algoritmusoknak úgy kell azonosítaniuk a kategóriákat, hogy rejtett struktúrákat keresnek az adatokban. A felügyelet nélküli megközelítésben használható fő eszközök a csoportosítás és egyesületi szabályok.
A rendszer bemenetet kap a környezettől, és lépéseket tesz. A rendszer megpróbál lépéseket tenni a jutalmak elnyerése érdekében. A rendszer megpróbál olyan intézkedéseket végrehajtani, amelyek optimalizálják a jutalmat a környező környezet állapotától függően.
A jutalmazási rendszer egy komponensen keresztül valósul meg, az ún ügynök. Az ügynök dönt a környezeten végrehajtandó cselekvésről, és ebből kap egyet jutalom és esetleg információ a környezet állapotáról, a kezdeményezett intézkedés következményeként.
Például, ha egy sakkjátszmának szentelt rendszerre gondolunk, akkor az ügynök az a komponens, amely a lépést eldönti, a környezet maga a játék. Az ügynök minden egyes lépésének hatására a játék állapota megváltozik (értsd: pillanatnyi helyzet, az összes bábu helyzete, az ellenfél lépésének következményeként is), visszajelzést kap, mint az ellenfél bábuját megette, ezért a költözés jutalmának szánták. Ily módon az ügynök tanul és képzi magát.
Ezért nyilvánvaló, hogy a gépi tanulás típusai közötti választás a kontextustól függ. Ez azt jelenti, hogy a megközelítés típusát a rendelkezésre álló adatok és az egyes esetek körülményeinek leírását (input) és eredményt (output) tartalmazó előzmények megléte alapján választják ki. Tehát egy ilyen típusú adatkészlettel folytathatja a felügyelt megközelítés használatát.
Ha viszont nincs lehetősége a kimeneti adatok (célpont) eleve megismerésére, vagy új célpontokat szeretne felfedezni, akkor a bemeneti adatok között kapcsolatokat kell azonosítani, hogy feltárhassák a korábban soha nem tapasztalt körülményeket. történelem, vagy szembenézni a tanulással egy olyan környezet felé, amely fejlődik és reagál. Ebben az esetben felügyelet nélküli vagy megerősítési technikát kell választani.
Ercole Palmeri: Innovációfüggő
Múlt hétfőn a Financial Times bejelentette, hogy megállapodást köt az OpenAI-val. Az FT engedélyezi világszínvonalú újságírását…
Emberek milliói fizetnek a streaming szolgáltatásokért, havi előfizetési díjat fizetve. Általános vélemény, hogy Ön…
A Coveware by Veeam továbbra is nyújt kiberzsarolási incidensekre reagáló szolgáltatásokat. A Coveware kriminalisztikai és kármentesítési lehetőségeket kínál majd…
A prediktív karbantartás az üzemirányítás innovatív és proaktív megközelítésével forradalmasítja az olaj- és gázszektort.…