Articoli

Breve analisi delle abilità emergenti nei modelli linguistici di grandi dimensioni

Gran parte della ricerca sull’intelligenza artificiale negli ultimi due decenni si è concentrata sull’addestramento di reti neurali, per eseguire un singolo compito con data set di addestramento specifico. Ad esempio classificare se un’immagine contiene un gatto, riassumere un articolo, tradurre dall’inglese allo swahili…

Negli ultimi anni, un nuovo paradigma si è evoluto attorno ai modelli linguistici: reti neurali che predicono semplicemente le parole successive in una frase date le parole precedenti nella frase.

Dopo essere stati addestrati su un ampio corpus di testo senza etichetta, i modelli linguistici possono essere “invitati” a eseguire attività arbitrarie come la previsione della parola che segue una frase. Ad esempio, il compito di tradurre una frase inglese in swahili potrebbe essere riformulato come prevedere la parola successiva: “La traduzione swahili di ‘intelligenza artificiale’ è …”

Da task-specific a task-general

Questo nuovo paradigma rappresenta un passaggio da modelli task-specific, addestrati per svolgere un singolo compito, a modelli task-general, che possono svolgere diversi compiti. Inoltre i modelli task-general possono anche eseguire nuove attività che non sono state esplicitamente incluse nei dati di addestramento. Ad esempio, GPT-3 ha mostrato che i modelli linguistici possono moltiplicare con successo numeri a due cifre, anche se non sono stati esplicitamente addestrati a farlo. Tuttavia, questa capacità di eseguire nuove attività si è verificata solo con i modelli con un certo numero di parametri ed addestrati su un set di dati sufficientemente grande.

Emergenza come comportamento

L’idea che i cambiamenti quantitativi in ​​un sistema possano portare a un nuovo comportamento è nota come emergenza, un concetto reso popolare dal saggio del 1972 “More is Different” del premio Nobel Philip Anderson. In molte discipline come fisica, biologia, economia e informatica, il fenomeno emergente è stato osservato nei sistemi complessi.

In un recente articolo pubblicato su Transactions on Machine Learning Research, il Laboratorio HAI in Stanford University definisce le abilità emergenti nei modelli linguistici di grandi dimensioni come segue:

Un’abilità è emergente se non è presente nei modelli più piccoli ma è presente nei modelli più grandi.

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Per caratterizzare la presenza di abilità emergenti, il nostro articolo ha aggregato i risultati per vari modelli e approcci che sono emersi negli ultimi due anni dal rilascio di GPT-3. Il documento ha esaminato la ricerca che ha analizzato l’influenza della scala: modelli di diverse dimensioni addestrati con diverse risorse computazionali. Per molte attività, il comportamento del modello cresce in modo prevedibile con la scala o aumenta in modo imprevedibile da prestazioni casuali a valori superiori a quelli casuali a una specifica soglia di scala.

Per approfondire leggi l’articolo sulle abilità emergenti nei modelli linguistici

Jason Wei è uno scienziato ricercatore presso Google Brain. Rishi Bommasani è uno studente di dottorato del secondo anno presso il Dipartimento di Informatica di Stanford che ha contribuito a lanciare lo Stanford Center for Research on Foundation Models (CRFM). Leggi il loro studio Emergent Abilities of Large Language Models,, scritto in collaborazione con studiosi di Google Research, Stanford University, UNC Chapel Hill e DeepMind.

Redazione BlogInnovazione.it

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Articoli recenti

Come usare le visualizzazioni e il layout in PowerPoint

Microsoft PowerPoint fornisce diversi tipi di strumenti per rendere le presentazioni fruibili, interattive e adatte a diversi scopi. Gli strumenti…

20 Maggio 2024

Apprendimento automatico: confronto tra Random Forest e albero decisionale

Nel mondo del machine learning, sia gli algoritmi random forest che decision tree svolgono un ruolo fondamentale nella categorizzazione e…

17 Maggio 2024

Come migliorare le presentazioni Power Point, consigli utili

Esistono molti suggerimenti e trucchi per fare ottime presentazioni. L'obiettivo di queste regola è di migliorare l'efficacia, la scorrevolezza di…

16 Maggio 2024

È ancora la velocità la leva nello sviluppo dei prodotti, secondo il report di Protolabs

Pubblicato il rapporto "Protolabs Product Development Outlook". Esamina le modalità in cui oggi vengono portati i nuovi prodotti sul mercato.…

16 Maggio 2024

I quattro pilastri della Sostenibilità

Il termine sostenibilità è oramai molto usato per indicare programmi, iniziative e azioni finalizzate alla preservazione di una particolare risorsa.…

15 Maggio 2024

Come consolidare i dati in Excel

Una qualsiasi operazione aziendale produce moltissimi dati, anche in forme diverse. Inserire manualmente questi dati da un foglio Excel a…

14 Maggio 2024

Analisi trimestrale Cisco Talos: mail aziendali nel mirino dei criminali Manifatturiero, Istruzione e Sanità i settori più colpiti

La compromissione delle mail aziendali sono aumentate nei primi tre mesi del 2024 più del doppio rispetto all’ultimo trimestre del…

14 Maggio 2024

Principio di segregazione dell’interfaccia (ISP), quarto principio S.O.L.I.D.

Il principio di segregazione dell'interfaccia è uno dei cinque principi SOLID della progettazione orientata agli oggetti. Una classe dovrebbe avere…

14 Maggio 2024

Leggi Innovazione nella tua Lingua

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Seguici