Posljednjih godina se oko jezičkih modela razvila nova paradigma: neuronske mreže koje jednostavno predviđaju sljedeće riječi u rečenici s obzirom na prethodne riječi u rečenici.
Nakon što su obučeni na velikom tijelu neoznačenog teksta, lingvistički modeli mogu biti "pozvani" da izvode proizvoljne zadatke kao što je predviđanje riječi nakon rečenice. Na primjer, zadatak prevođenja engleske rečenice na svahili mogao bi se preformulisati kao predviđanje sljedeće riječi: "Svahili prijevod 'vještačke inteligencije' je..."
Ova nova paradigma predstavlja pomak od modela specifičan za zadatak, obučeni za obavljanje jednog zadatka, u modelima generalni zadatak, koji može obavljati različite zadatke. Plus modeli generalni zadatak mogu obavljati i nove aktivnosti koje nisu eksplicitno uključene u podatke o obuci. Na primjer, GPT-3 pokazao da lingvistički modeli mogu uspješno množenje dvocifrenih brojeva, čak i ako nisu eksplicitno obučeni za to. Međutim, ova sposobnost izvršavanja novih zadataka javlja se samo kod modela sa određenim brojem parametara i obučenih na dovoljno velikom skupu podataka.
Ideja da kvantitativne promjene u sistemu mogu dovesti do novog ponašanja poznata je kao vanredno stanje, koncept koji je popularizirao esej nobelovca Philipa Andersona iz 1972. godine “Više je drugačije”. U mnogim disciplinama kao što su fizika, biologija, ekonomija i informatika, pojava koja se pojavljuje je uočena u složenim sistemima.
U nedavni članak Objavljeno dana Transakcije o istraživanju mašinskog učenja, laboratorija Hai in Stanford University defizavršava nove vještine u velikim jezičkim modelima na sljedeći način:
Vještina je emergentni ako nije prisutan u manjim modelima, ali je prisutan u većim modelima.
Okarakterizirati prisustvo vještina u nastajanju, naš članak je objedinio nalaze za različite modele i pristupe koji su se pojavili u protekle dvije godine od objavljivanja GPT-3. U radu su ispitana istraživanja koja su analizirala utjecaj razmjera: modeli različitih veličina obučeni s različitim računskim resursima. Za mnoge aktivnosti, ponašanje modela raste predvidljivo sa skalom ili se nepredvidivo povećava od nasumičnih performansi do vrijednosti viših od slučajnih na određenom pragu skale.
Da biste saznali više, pročitajte članak na nove vještine u lingvističkim modelima
Jason Wei je istraživač u Google Brain-u. Rishi Bommasani je student druge godine doktorskih studija na Stanfordskom odsjeku za kompjuterske nauke koji je pomogao u pokretanju Stanford centar za istraživanje modela temelja (CRFM). Pročitajte njihovu studiju "Emerging Abilities of Large Language Models,", napisan u saradnji sa naučnicima iz Google Research-a, Univerziteta Stanford, UNC Chapel Hill i DeepMind-a.
izrada BlogInnovazione.it
Coveware od strane Veeam-a će nastaviti da pruža usluge odgovora na incidente u slučaju sajber iznude. Coveware će ponuditi mogućnosti forenzike i sanacije…
Prediktivno održavanje revolucionira sektor nafte i plina, s inovativnim i proaktivnim pristupom upravljanju postrojenjima.…
UK CMA izdao je upozorenje o ponašanju Big Tech-a na tržištu umjetne inteligencije. Tamo…
Uredba o „zelenim kućama“, koju je formulisala Evropska unija za poboljšanje energetske efikasnosti zgrada, završila je svoj zakonodavni proces sa…