Articoli

Breve analisi delle abilità emergenti nei modelli linguistici di grandi dimensioni

Gran parte della ricerca sull’intelligenza artificiale negli ultimi due decenni si è concentrata sull’addestramento di reti neurali, per eseguire un singolo compito con data set di addestramento specifico. Ad esempio classificare se un’immagine contiene un gatto, riassumere un articolo, tradurre dall’inglese allo swahili…

Negli ultimi anni, un nuovo paradigma si è evoluto attorno ai modelli linguistici: reti neurali che predicono semplicemente le parole successive in una frase date le parole precedenti nella frase.

Dopo essere stati addestrati su un ampio corpus di testo senza etichetta, i modelli linguistici possono essere “invitati” a eseguire attività arbitrarie come la previsione della parola che segue una frase. Ad esempio, il compito di tradurre una frase inglese in swahili potrebbe essere riformulato come prevedere la parola successiva: “La traduzione swahili di ‘intelligenza artificiale’ è …”

Da task-specific a task-general

Questo nuovo paradigma rappresenta un passaggio da modelli task-specific, addestrati per svolgere un singolo compito, a modelli task-general, che possono svolgere diversi compiti. Inoltre i modelli task-general possono anche eseguire nuove attività che non sono state esplicitamente incluse nei dati di addestramento. Ad esempio, GPT-3 ha mostrato che i modelli linguistici possono moltiplicare con successo numeri a due cifre, anche se non sono stati esplicitamente addestrati a farlo. Tuttavia, questa capacità di eseguire nuove attività si è verificata solo con i modelli con un certo numero di parametri ed addestrati su un set di dati sufficientemente grande.

Emergenza come comportamento

L’idea che i cambiamenti quantitativi in ​​un sistema possano portare a un nuovo comportamento è nota come emergenza, un concetto reso popolare dal saggio del 1972 “More is Different” del premio Nobel Philip Anderson. In molte discipline come fisica, biologia, economia e informatica, il fenomeno emergente è stato osservato nei sistemi complessi.

In un recente articolo pubblicato su Transactions on Machine Learning Research, il Laboratorio HAI in Stanford University definisce le abilità emergenti nei modelli linguistici di grandi dimensioni come segue:

Articoli correlati

Un’abilità è emergente se non è presente nei modelli più piccoli ma è presente nei modelli più grandi.

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Per caratterizzare la presenza di abilità emergenti, il nostro articolo ha aggregato i risultati per vari modelli e approcci che sono emersi negli ultimi due anni dal rilascio di GPT-3. Il documento ha esaminato la ricerca che ha analizzato l’influenza della scala: modelli di diverse dimensioni addestrati con diverse risorse computazionali. Per molte attività, il comportamento del modello cresce in modo prevedibile con la scala o aumenta in modo imprevedibile da prestazioni casuali a valori superiori a quelli casuali a una specifica soglia di scala.

Per approfondire leggi l’articolo sulle abilità emergenti nei modelli linguistici

Jason Wei è uno scienziato ricercatore presso Google Brain. Rishi Bommasani è uno studente di dottorato del secondo anno presso il Dipartimento di Informatica di Stanford che ha contribuito a lanciare lo Stanford Center for Research on Foundation Models (CRFM). Leggi il loro studio Emergent Abilities of Large Language Models,, scritto in collaborazione con studiosi di Google Research, Stanford University, UNC Chapel Hill e DeepMind.

Redazione BlogInnovazione.it

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Articoli recenti

Nasce Nim, l’Osservatorio del Nord-Est sull’economia dell’innovazione

Nasce l’Osservatorio del Nordest sull’economia dell’Innovazione Nim, (Numbers Innovation Motion) è un progetto di Galileo Visionary District realizzato in collaborazione…

7 Dicembre 2023

Innovazione del Content Marketing con Memory e Personality

ASKtoAI lancia le innovative funzionalità Memory e Personality, strumenti d'avanguardia per la creazione di contenuti digitali che promettono di migliorare…

6 Dicembre 2023

Discuss apre una nuova era di ricerca qualitativa con GenAI ampliata e innovazione asincrona

Discuss , la piattaforma leader appositamente creata per trasformare le esperienze in insight, ha potenziato le sue capacità di scalare la…

6 Dicembre 2023

Unwrapping Innovation: Blue Lake Packaging annuncia un’alternativa a base di fibra e priva di plastica al nastro e ai dispenser tradizionali

Con le festività che si avvicinano rapidamente, Blue Lake Packaging è entusiasta di offrire un'alternativa ecologica al nastro da imballaggio…

6 Dicembre 2023

Riepilogo del Netlogistik Innovation Day: trasformazione digitale della catena del freddo, innovazioni nel riciclaggio e leadership nella supply chain

Netlogistik , leader in potenti servizi che guidano le aziende verso la trasformazione digitale della catena di fornitura, ha recentemente tenuto…

6 Dicembre 2023

Lattice collabora con NVIDIA per accelerare l’IA edge

Annuncia una soluzione integrata che combina FPGA di Lattice a bassa potenza e bassa latenza con la piattaforma NVIDIA Orin…

6 Dicembre 2023

Evoluzione del tessile: il progetto TEPP della Taiwan Textile Federation ispira l’innovazione sostenibile oltre il 2023

Con un successo clamoroso, il Textile Export Promotion Project (TEPP), guidato dalla Taiwan Textile Federation nel 2023, ha messo in…

5 Dicembre 2023

Lattice continua la rapida espansione del portafoglio di prodotti che rende possibile la prossima era dell’innovazione

Lattice presenta i nuovi FPGA mid-range Lattice Avant-G e Lattice Avant-X, stack di soluzioni specifiche per le applicazioni ampliate e…

5 Dicembre 2023

Scopri di più sulla gestione della conoscenza e sull’innovazione per gli studi legali con un nuovo trattato scritto da esperti

Innovazione per i professionisti della gestione della conoscenza e dell'innovazione (KM&I). Nel settore legale è ora disponibile un riferimento completo…

5 Dicembre 2023

La Fondazione Eclipse lancia il gruppo di lavoro Eclipse Dataspace per promuovere l’innovazione globale nella condivisione affidabile dei dati

La Eclipse Foundation , una delle più grandi fondazioni di software open source al mondo, ha annunciato oggi la formazione dell'Eclipse…

5 Dicembre 2023