Informatica

Gato, DeepMind e la corsa verso l’intelligenza artificiale generale

Gato è un nuovo sistema AI multimodale di DeepMind in grado di svolgere centinaia di task diversi usando sempre la stessa rete neurale.

C’è chi pensa che la strada verso l’intelligenza artificiale di livello umano sia ormai tracciata, adesso sarebbe solo una questione di aumentare le risorse computazionali, chi invece frena perché mancherebbero ancora molti requisiti. La straordinaria capacità di gestire task molto diversi fra loro rende comunque Gato un sistema AI diverso dagli altri, che se da una parte non è ancora quell’intelligenza artificiale generale che tutti si aspettano, dall’altra è comunque un sistema innovativo per il modo in cui riesce a far elaborare dati molto diversi dalla stessa architettura di deep learning.

AI stretta e AI generale 

Finora una delle distinzioni principali nel complesso mondo dell’intelligenza artificiale era la differenza fra AI debole, anche detta AI “stretta”, e AI forte, anche detta AI “generale”. Si trattava di un modo abbastanza semplice per dirimere subito la questione delle macchine pensanti. L’AI stretta è quel tipo di intelligenza artificiale che svolge solo un compito, come ad esempio programmare un percorso, fornire risultati di ricerca rilevanti o intrattenere una conversazione scritta. L’AI generale, invece, è quel genere di intelligenza artificiale che vediamo nei film, che ragiona come un essere umano, che esegue molti compiti contemporaneamente creando fra loro utili sinergie. L’acronimo per queste macchine simili all’essere umano è AGI, Artificial General Intelligence. Per la maggior parte dei ricercatori una chimera in teoria possibile ma che non raggiungeremo presto.

Tuttavia, questa distinzione oggi scricchiola e inizia a essere sempre meno semplice da spiegare. Negli ultimi anni, infatti, la ricerca si è spinta verso la creazione di modelli di intelligenza artificiale sempre più generalisti, senza però sfociare nella scoperta dell’AGI. Si sta creando, dunque, una specie di terra di mezzo, dove troviamo modelli AI che riescono a svolgere numerosi compiti di diversa natura, tanto da non poter più essere descritti come AI “stretta”, ma che allo stesso tempo non mostrano quell’intelligenza causale né quella presa di coscienza che per molti esperti dovrebbero essere insite in un’AGI.

AI multimodale

Possiamo chiamare questo tipo di intelligenza artificiale “generalista” o forse più correttamente “multimodale”, poiché vi sono diversi modi per interagire con essa. Per fare un esempio, un sistema AI multimodale sarebbe in grado di reperire le previsioni del tempo per la nostra zona (ricerca e selezione del risultato migliore), comunicarci che oggi pioverà (elaborazione del linguaggio naturale e sintesi vocale) e verificare se stiamo uscendo con o senza l’ombrello (visione artificiale). Inoltre, una delle caratteristiche principali di un sistema multimodale è quello di “ingerire” dati di tipo diverso – ad esempio immagini e testo – sapendo trarre informazioni utili da entrambi. Come risultato ci sembrerà di avere a che fare con una vera intelligenza, in realtà sono solo molteplici modelli AI messi “in batteria” e in sinergia fra loro.

Lo zoo di DeepMind

Per quanto concerne la ricerca verso l’AI multimodale, nelle ultime settimane l’azienda londinese DeepMind, che – lo ricordiamo – fa parte della galassia di Google, ha rilasciato due sistemi AI che hanno fatto molto parlare di sé. Il primo si chiama Flamingo, ed è un modello in grado di risolvere “task multimodali”, ovvero compiti che possono avere informazioni in entrata veicolate attraverso diverse modalità, come immagini, video e testo, anche in combinazione fra loro. Flamingo è un modello di linguaggio visivo (VLM, visual language model) che può gestire informazioni di classificazione, gestione delle didascalie, risposte a domande basate sulle immagini, il tutto fornendo solo pochi campioni di input/output (il cosiddetto “few-shot learning”).

Articoli correlati

Scopo del modello è quello di “comprendere” la situazione di un’immagine o di un video, descrivendola correttamente con il suo sistema linguistico e rispondendo correttamente a domande relative a quello che “vede”.

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Connettivismo è intelligenza?

Gato non sempre è il migliore modello AI per un dato compito. Il controllo di un robot Sawyer (si tratta di un robot formato da un braccio con molte “articolazioni”) è di buon livello, ma la creazione di didascalie è solo mediocre, mentre la gestione di alcuni giochi Atari è inferiore rispetto a quella di altri modelli AI dedicati. DeepMind afferma che su 450 task (rispetto ai 604 sui quali è stato addestrato) Gato è più preciso degli esperti umani “più della metà delle volte”. Un modo un po’ contorto per dire che sui complessivi 604 task, almeno 154 restituiscono risultati decisamente scarsi, mentre nei restanti 450 una buona metà delle volte Gato si comporta meglio di un esperto umano, ma un’altra metà delle volte si comporta peggio.

La strada verso la generalizzazione

I risultati di queste settimane sono frutto di un impegno che DeepMind sta portando avanti da molti anni. Non dimentichiamo che l’obiettivo dell’azienda è quello di “risolvere il problema dell’intelligenza”, sviluppando sistemi sempre più generali e capaci di affrontare una vasta gamma di problemi diversi. È questo che l’azienda chiama Artificial general intelligence, ed è lì che vogliono arrivare. L’anno scorso un passo in questa direzione era stato fatto con Perceiver, un modello multimodale basato sull’architettura Transformer in grado di gestire diversi tipi di input, come immagini, testo, video, suoni, dati 3D. Gli stessi creatori di Gato pensano che Perceiver possa essere utile per espandere ulteriormente il numero di modalità di futuri sistemi generali.

Articolo estratto dal Post di Luca Sambucci, se vuoi leggere l’intero post clicca qui 


Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Articoli recenti

Nasce Nim, l’Osservatorio del Nord-Est sull’economia dell’innovazione

Nasce l’Osservatorio del Nordest sull’economia dell’Innovazione Nim, (Numbers Innovation Motion) è un progetto di Galileo Visionary District realizzato in collaborazione…

7 Dicembre 2023

Innovazione del Content Marketing con Memory e Personality

ASKtoAI lancia le innovative funzionalità Memory e Personality, strumenti d'avanguardia per la creazione di contenuti digitali che promettono di migliorare…

6 Dicembre 2023

Discuss apre una nuova era di ricerca qualitativa con GenAI ampliata e innovazione asincrona

Discuss , la piattaforma leader appositamente creata per trasformare le esperienze in insight, ha potenziato le sue capacità di scalare la…

6 Dicembre 2023

Unwrapping Innovation: Blue Lake Packaging annuncia un’alternativa a base di fibra e priva di plastica al nastro e ai dispenser tradizionali

Con le festività che si avvicinano rapidamente, Blue Lake Packaging è entusiasta di offrire un'alternativa ecologica al nastro da imballaggio…

6 Dicembre 2023

Riepilogo del Netlogistik Innovation Day: trasformazione digitale della catena del freddo, innovazioni nel riciclaggio e leadership nella supply chain

Netlogistik , leader in potenti servizi che guidano le aziende verso la trasformazione digitale della catena di fornitura, ha recentemente tenuto…

6 Dicembre 2023

Lattice collabora con NVIDIA per accelerare l’IA edge

Annuncia una soluzione integrata che combina FPGA di Lattice a bassa potenza e bassa latenza con la piattaforma NVIDIA Orin…

6 Dicembre 2023

Evoluzione del tessile: il progetto TEPP della Taiwan Textile Federation ispira l’innovazione sostenibile oltre il 2023

Con un successo clamoroso, il Textile Export Promotion Project (TEPP), guidato dalla Taiwan Textile Federation nel 2023, ha messo in…

5 Dicembre 2023

Lattice continua la rapida espansione del portafoglio di prodotti che rende possibile la prossima era dell’innovazione

Lattice presenta i nuovi FPGA mid-range Lattice Avant-G e Lattice Avant-X, stack di soluzioni specifiche per le applicazioni ampliate e…

5 Dicembre 2023

Scopri di più sulla gestione della conoscenza e sull’innovazione per gli studi legali con un nuovo trattato scritto da esperti

Innovazione per i professionisti della gestione della conoscenza e dell'innovazione (KM&I). Nel settore legale è ora disponibile un riferimento completo…

5 Dicembre 2023

La Fondazione Eclipse lancia il gruppo di lavoro Eclipse Dataspace per promuovere l’innovazione globale nella condivisione affidabile dei dati

La Eclipse Foundation , una delle più grandi fondazioni di software open source al mondo, ha annunciato oggi la formazione dell'Eclipse…

5 Dicembre 2023