Breve analisi delle abilità emergenti nei modelli linguistici di grandi dimensioni

modelli linguistici

Gran parte della ricerca sull’intelligenza artificiale negli ultimi due decenni si è concentrata sull’addestramento di reti neurali, per eseguire un singolo compito con data set di addestramento specifico. Ad esempio classificare se un’immagine contiene un gatto, riassumere un articolo, tradurre dall’inglese allo swahili…

Negli ultimi anni, un nuovo paradigma si è evoluto attorno ai modelli linguistici: reti neurali che predicono semplicemente le parole successive in una frase date le parole precedenti nella frase.

Dopo essere stati addestrati su un ampio corpus di testo senza etichetta, i modelli linguistici possono essere “invitati” a eseguire attività arbitrarie come la previsione della parola che segue una frase. Ad esempio, il compito di tradurre una frase inglese in swahili potrebbe essere riformulato come prevedere la parola successiva: “La traduzione swahili di ‘intelligenza artificiale’ è …”

Da task-specific a task-general

Questo nuovo paradigma rappresenta un passaggio da modelli task-specific, addestrati per svolgere un singolo compito, a modelli task-general, che possono svolgere diversi compiti. Inoltre i modelli task-general possono anche eseguire nuove attività che non sono state esplicitamente incluse nei dati di addestramento. Ad esempio, GPT-3 ha mostrato che i modelli linguistici possono moltiplicare con successo numeri a due cifre, anche se non sono stati esplicitamente addestrati a farlo. Tuttavia, questa capacità di eseguire nuove attività si è verificata solo con i modelli con un certo numero di parametri ed addestrati su un set di dati sufficientemente grande.

Emergenza come comportamento

L’idea che i cambiamenti quantitativi in ​​un sistema possano portare a un nuovo comportamento è nota come emergenza, un concetto reso popolare dal saggio del 1972 “More is Different” del premio Nobel Philip Anderson. In molte discipline come fisica, biologia, economia e informatica, il fenomeno emergente è stato osservato nei sistemi complessi.

In un recente articolo pubblicato su Transactions on Machine Learning Research, il Laboratorio HAI in Stanford University definisce le abilità emergenti nei modelli linguistici di grandi dimensioni come segue:

Un’abilità è emergente se non è presente nei modelli più piccoli ma è presente nei modelli più grandi.

Per caratterizzare la presenza di abilità emergenti, il nostro articolo ha aggregato i risultati per vari modelli e approcci che sono emersi negli ultimi due anni dal rilascio di GPT-3. Il documento ha esaminato la ricerca che ha analizzato l’influenza della scala: modelli di diverse dimensioni addestrati con diverse risorse computazionali. Per molte attività, il comportamento del modello cresce in modo prevedibile con la scala o aumenta in modo imprevedibile da prestazioni casuali a valori superiori a quelli casuali a una specifica soglia di scala.

Per approfondire leggi l’articolo sulle abilità emergenti nei modelli linguistici

Jason Wei è uno scienziato ricercatore presso Google Brain. Rishi Bommasani è uno studente di dottorato del secondo anno presso il Dipartimento di Informatica di Stanford che ha contribuito a lanciare lo Stanford Center for Research on Foundation Models (CRFM). Leggi il loro studio Emergent Abilities of Large Language Models,, scritto in collaborazione con studiosi di Google Research, Stanford University, UNC Chapel Hill e DeepMind.

Redazione BlogInnovazione.it

Autore