Negli ultimi anni, un nuovo paradigma si è evoluto attorno ai modelli linguistici: reti neurali che predicono semplicemente le parole successive in una frase date le parole precedenti nella frase.
Dopo essere stati addestrati su un ampio corpus di testo senza etichetta, i modelli linguistici possono essere “invitati” a eseguire attività arbitrarie come la previsione della parola che segue una frase. Ad esempio, il compito di tradurre una frase inglese in swahili potrebbe essere riformulato come prevedere la parola successiva: “La traduzione swahili di ‘intelligenza artificiale’ è …”
Questo nuovo paradigma rappresenta un passaggio da modelli task-specific, addestrati per svolgere un singolo compito, a modelli task-general, che possono svolgere diversi compiti. Inoltre i modelli task-general possono anche eseguire nuove attività che non sono state esplicitamente incluse nei dati di addestramento. Ad esempio, GPT-3 ha mostrato che i modelli linguistici possono moltiplicare con successo numeri a due cifre, anche se non sono stati esplicitamente addestrati a farlo. Tuttavia, questa capacità di eseguire nuove attività si è verificata solo con i modelli con un certo numero di parametri ed addestrati su un set di dati sufficientemente grande.
L’idea che i cambiamenti quantitativi in un sistema possano portare a un nuovo comportamento è nota come emergenza, un concetto reso popolare dal saggio del 1972 “More is Different” del premio Nobel Philip Anderson. In molte discipline come fisica, biologia, economia e informatica, il fenomeno emergente è stato osservato nei sistemi complessi.
In un recente articolo pubblicato su Transactions on Machine Learning Research, il Laboratorio HAI in Stanford University definisce le abilità emergenti nei modelli linguistici di grandi dimensioni come segue:
Un’abilità è emergente se non è presente nei modelli più piccoli ma è presente nei modelli più grandi.
Per caratterizzare la presenza di abilità emergenti, il nostro articolo ha aggregato i risultati per vari modelli e approcci che sono emersi negli ultimi due anni dal rilascio di GPT-3. Il documento ha esaminato la ricerca che ha analizzato l’influenza della scala: modelli di diverse dimensioni addestrati con diverse risorse computazionali. Per molte attività, il comportamento del modello cresce in modo prevedibile con la scala o aumenta in modo imprevedibile da prestazioni casuali a valori superiori a quelli casuali a una specifica soglia di scala.
Per approfondire leggi l’articolo sulle abilità emergenti nei modelli linguistici
Jason Wei è uno scienziato ricercatore presso Google Brain. Rishi Bommasani è uno studente di dottorato del secondo anno presso il Dipartimento di Informatica di Stanford che ha contribuito a lanciare lo Stanford Center for Research on Foundation Models (CRFM). Leggi il loro studio “Emergent Abilities of Large Language Models,”, scritto in collaborazione con studiosi di Google Research, Stanford University, UNC Chapel Hill e DeepMind.
Redazione BlogInnovazione.it
Nasce l’Osservatorio del Nordest sull’economia dell’Innovazione Nim, (Numbers Innovation Motion) è un progetto di Galileo Visionary District realizzato in collaborazione…
ASKtoAI lancia le innovative funzionalità Memory e Personality, strumenti d'avanguardia per la creazione di contenuti digitali che promettono di migliorare…
Discuss , la piattaforma leader appositamente creata per trasformare le esperienze in insight, ha potenziato le sue capacità di scalare la…
Con le festività che si avvicinano rapidamente, Blue Lake Packaging è entusiasta di offrire un'alternativa ecologica al nastro da imballaggio…
Netlogistik , leader in potenti servizi che guidano le aziende verso la trasformazione digitale della catena di fornitura, ha recentemente tenuto…
Annuncia una soluzione integrata che combina FPGA di Lattice a bassa potenza e bassa latenza con la piattaforma NVIDIA Orin…
Con un successo clamoroso, il Textile Export Promotion Project (TEPP), guidato dalla Taiwan Textile Federation nel 2023, ha messo in…
Lattice presenta i nuovi FPGA mid-range Lattice Avant-G e Lattice Avant-X, stack di soluzioni specifiche per le applicazioni ampliate e…
Innovazione per i professionisti della gestione della conoscenza e dell'innovazione (KM&I). Nel settore legale è ora disponibile un riferimento completo…
La Eclipse Foundation , una delle più grandi fondazioni di software open source al mondo, ha annunciato oggi la formazione dell'Eclipse…