Gato, DeepMind e la corsa verso l’intelligenza artificiale generale

Gato è un nuovo sistema AI multimodale di DeepMind in grado di svolgere centinaia di task diversi usando sempre la stessa rete neurale.

C’è chi pensa che la strada verso l’intelligenza artificiale di livello umano sia ormai tracciata, adesso sarebbe solo una questione di aumentare le risorse computazionali, chi invece frena perché mancherebbero ancora molti requisiti. La straordinaria capacità di gestire task molto diversi fra loro rende comunque Gato un sistema AI diverso dagli altri, che se da una parte non è ancora quell’intelligenza artificiale generale che tutti si aspettano, dall’altra è comunque un sistema innovativo per il modo in cui riesce a far elaborare dati molto diversi dalla stessa architettura di deep learning.

AI stretta e AI generale

Finora una delle distinzioni principali nel complesso mondo dell’intelligenza artificiale era la differenza fra AI debole, anche detta AI “stretta”, e AI forte, anche detta AI “generale”. Si trattava di un modo abbastanza semplice per dirimere subito la questione delle macchine pensanti. L’AI stretta è quel tipo di intelligenza artificiale che svolge solo un compito, come ad esempio programmare un percorso, fornire risultati di ricerca rilevanti o intrattenere una conversazione scritta. L’AI generale, invece, è quel genere di intelligenza artificiale che vediamo nei film, che ragiona come un essere umano, che esegue molti compiti contemporaneamente creando fra loro utili sinergie. L’acronimo per queste macchine simili all’essere umano è AGI, Artificial General Intelligence. Per la maggior parte dei ricercatori una chimera in teoria possibile ma che non raggiungeremo presto.

Tuttavia, questa distinzione oggi scricchiola e inizia a essere sempre meno semplice da spiegare. Negli ultimi anni, infatti, la ricerca si è spinta verso la creazione di modelli di intelligenza artificiale sempre più generalisti, senza però sfociare nella scoperta dell’AGI. Si sta creando, dunque, una specie di terra di mezzo, dove troviamo modelli AI che riescono a svolgere numerosi compiti di diversa natura, tanto da non poter più essere descritti come AI “stretta”, ma che allo stesso tempo non mostrano quell’intelligenza causale né quella presa di coscienza che per molti esperti dovrebbero essere insite in un’AGI.

AI multimodale

Possiamo chiamare questo tipo di intelligenza artificiale “generalista” o forse più correttamente “multimodale”, poiché vi sono diversi modi per interagire con essa. Per fare un esempio, un sistema AI multimodale sarebbe in grado di reperire le previsioni del tempo per la nostra zona (ricerca e selezione del risultato migliore), comunicarci che oggi pioverà (elaborazione del linguaggio naturale e sintesi vocale) e verificare se stiamo uscendo con o senza l’ombrello (visione artificiale). Inoltre, una delle caratteristiche principali di un sistema multimodale è quello di “ingerire” dati di tipo diverso – ad esempio immagini e testo – sapendo trarre informazioni utili da entrambi. Come risultato ci sembrerà di avere a che fare con una vera intelligenza, in realtà sono solo molteplici modelli AI messi “in batteria” e in sinergia fra loro.

Lo zoo di DeepMind

Per quanto concerne la ricerca verso l’AI multimodale, nelle ultime settimane l’azienda londinese DeepMind, che – lo ricordiamo – fa parte della galassia di Google, ha rilasciato due sistemi AI che hanno fatto molto parlare di sé. Il primo si chiama Flamingo, ed è un modello in grado di risolvere “task multimodali”, ovvero compiti che possono avere informazioni in entrata veicolate attraverso diverse modalità, come immagini, video e testo, anche in combinazione fra loro. Flamingo è un modello di linguaggio visivo (VLM, visual language model) che può gestire informazioni di classificazione, gestione delle didascalie, risposte a domande basate sulle immagini, il tutto fornendo solo pochi campioni di input/output (il cosiddetto “few-shot learning”).

Scopo del modello è quello di “comprendere” la situazione di un’immagine o di un video, descrivendola correttamente con il suo sistema linguistico e rispondendo correttamente a domande relative a quello che “vede”.

Connettivismo è intelligenza?

Gato non sempre è il migliore modello AI per un dato compito. Il controllo di un robot Sawyer (si tratta di un robot formato da un braccio con molte “articolazioni”) è di buon livello, ma la creazione di didascalie è solo mediocre, mentre la gestione di alcuni giochi Atari è inferiore rispetto a quella di altri modelli AI dedicati. DeepMind afferma che su 450 task (rispetto ai 604 sui quali è stato addestrato) Gato è più preciso degli esperti umani “più della metà delle volte”. Un modo un po’ contorto per dire che sui complessivi 604 task, almeno 154 restituiscono risultati decisamente scarsi, mentre nei restanti 450 una buona metà delle volte Gato si comporta meglio di un esperto umano, ma un’altra metà delle volte si comporta peggio.

La strada verso la generalizzazione

I risultati di queste settimane sono frutto di un impegno che DeepMind sta portando avanti da molti anni. Non dimentichiamo che l’obiettivo dell’azienda è quello di “risolvere il problema dell’intelligenza”, sviluppando sistemi sempre più generali e capaci di affrontare una vasta gamma di problemi diversi. È questo che l’azienda chiama Artificial general intelligence, ed è lì che vogliono arrivare. L’anno scorso un passo in questa direzione era stato fatto con Perceiver, un modello multimodale basato sull’architettura Transformer in grado di gestire diversi tipi di input, come immagini, testo, video, suoni, dati 3D. Gli stessi creatori di Gato pensano che Perceiver possa essere utile per espandere ulteriormente il numero di modalità di futuri sistemi generali.

Articolo estratto dal Post di Luca Sambucci, se vuoi leggere l’intero post clicca qui