C’è chi pensa che la strada verso l’intelligenza artificiale di livello umano sia ormai tracciata, adesso sarebbe solo una questione di aumentare le risorse computazionali, chi invece frena perché mancherebbero ancora molti requisiti. La straordinaria capacità di gestire task molto diversi fra loro rende comunque Gato un sistema AI diverso dagli altri, che se da una parte non è ancora quell’intelligenza artificiale generale che tutti si aspettano, dall’altra è comunque un sistema innovativo per il modo in cui riesce a far elaborare dati molto diversi dalla stessa architettura di deep learning.
Finora una delle distinzioni principali nel complesso mondo dell’intelligenza artificiale era la differenza fra AI debole, anche detta AI “stretta”, e AI forte, anche detta AI “generale”. Si trattava di un modo abbastanza semplice per dirimere subito la questione delle macchine pensanti. L’AI stretta è quel tipo di intelligenza artificiale che svolge solo un compito, come ad esempio programmare un percorso, fornire risultati di ricerca rilevanti o intrattenere una conversazione scritta. L’AI generale, invece, è quel genere di intelligenza artificiale che vediamo nei film, che ragiona come un essere umano, che esegue molti compiti contemporaneamente creando fra loro utili sinergie. L’acronimo per queste macchine simili all’essere umano è AGI, Artificial General Intelligence. Per la maggior parte dei ricercatori una chimera in teoria possibile ma che non raggiungeremo presto.
Tuttavia, questa distinzione oggi scricchiola e inizia a essere sempre meno semplice da spiegare. Negli ultimi anni, infatti, la ricerca si è spinta verso la creazione di modelli di intelligenza artificiale sempre più generalisti, senza però sfociare nella scoperta dell’AGI. Si sta creando, dunque, una specie di terra di mezzo, dove troviamo modelli AI che riescono a svolgere numerosi compiti di diversa natura, tanto da non poter più essere descritti come AI “stretta”, ma che allo stesso tempo non mostrano quell’intelligenza causale né quella presa di coscienza che per molti esperti dovrebbero essere insite in un’AGI.
Possiamo chiamare questo tipo di intelligenza artificiale “generalista” o forse più correttamente “multimodale”, poiché vi sono diversi modi per interagire con essa. Per fare un esempio, un sistema AI multimodale sarebbe in grado di reperire le previsioni del tempo per la nostra zona (ricerca e selezione del risultato migliore), comunicarci che oggi pioverà (elaborazione del linguaggio naturale e sintesi vocale) e verificare se stiamo uscendo con o senza l’ombrello (visione artificiale). Inoltre, una delle caratteristiche principali di un sistema multimodale è quello di “ingerire” dati di tipo diverso – ad esempio immagini e testo – sapendo trarre informazioni utili da entrambi. Come risultato ci sembrerà di avere a che fare con una vera intelligenza, in realtà sono solo molteplici modelli AI messi “in batteria” e in sinergia fra loro.
Per quanto concerne la ricerca verso l’AI multimodale, nelle ultime settimane l’azienda londinese DeepMind, che – lo ricordiamo – fa parte della galassia di Google, ha rilasciato due sistemi AI che hanno fatto molto parlare di sé. Il primo si chiama Flamingo, ed è un modello in grado di risolvere “task multimodali”, ovvero compiti che possono avere informazioni in entrata veicolate attraverso diverse modalità, come immagini, video e testo, anche in combinazione fra loro. Flamingo è un modello di linguaggio visivo (VLM, visual language model) che può gestire informazioni di classificazione, gestione delle didascalie, risposte a domande basate sulle immagini, il tutto fornendo solo pochi campioni di input/output (il cosiddetto “few-shot learning”).
Scopo del modello è quello di “comprendere” la situazione di un’immagine o di un video, descrivendola correttamente con il suo sistema linguistico e rispondendo correttamente a domande relative a quello che “vede”.
Gato non sempre è il migliore modello AI per un dato compito. Il controllo di un robot Sawyer (si tratta di un robot formato da un braccio con molte “articolazioni”) è di buon livello, ma la creazione di didascalie è solo mediocre, mentre la gestione di alcuni giochi Atari è inferiore rispetto a quella di altri modelli AI dedicati. DeepMind afferma che su 450 task (rispetto ai 604 sui quali è stato addestrato) Gato è più preciso degli esperti umani “più della metà delle volte”. Un modo un po’ contorto per dire che sui complessivi 604 task, almeno 154 restituiscono risultati decisamente scarsi, mentre nei restanti 450 una buona metà delle volte Gato si comporta meglio di un esperto umano, ma un’altra metà delle volte si comporta peggio.
I risultati di queste settimane sono frutto di un impegno che DeepMind sta portando avanti da molti anni. Non dimentichiamo che l’obiettivo dell’azienda è quello di “risolvere il problema dell’intelligenza”, sviluppando sistemi sempre più generali e capaci di affrontare una vasta gamma di problemi diversi. È questo che l’azienda chiama Artificial general intelligence, ed è lì che vogliono arrivare. L’anno scorso un passo in questa direzione era stato fatto con Perceiver, un modello multimodale basato sull’architettura Transformer in grado di gestire diversi tipi di input, come immagini, testo, video, suoni, dati 3D. Gli stessi creatori di Gato pensano che Perceiver possa essere utile per espandere ulteriormente il numero di modalità di futuri sistemi generali.
Articolo estratto dal Post di Luca Sambucci, se vuoi leggere l’intero post clicca qui
Nasce l’Osservatorio del Nordest sull’economia dell’Innovazione Nim, (Numbers Innovation Motion) è un progetto di Galileo Visionary District realizzato in collaborazione…
ASKtoAI lancia le innovative funzionalità Memory e Personality, strumenti d'avanguardia per la creazione di contenuti digitali che promettono di migliorare…
Discuss , la piattaforma leader appositamente creata per trasformare le esperienze in insight, ha potenziato le sue capacità di scalare la…
Con le festività che si avvicinano rapidamente, Blue Lake Packaging è entusiasta di offrire un'alternativa ecologica al nastro da imballaggio…
Netlogistik , leader in potenti servizi che guidano le aziende verso la trasformazione digitale della catena di fornitura, ha recentemente tenuto…
Annuncia una soluzione integrata che combina FPGA di Lattice a bassa potenza e bassa latenza con la piattaforma NVIDIA Orin…
Con un successo clamoroso, il Textile Export Promotion Project (TEPP), guidato dalla Taiwan Textile Federation nel 2023, ha messo in…
Lattice presenta i nuovi FPGA mid-range Lattice Avant-G e Lattice Avant-X, stack di soluzioni specifiche per le applicazioni ampliate e…
Innovazione per i professionisti della gestione della conoscenza e dell'innovazione (KM&I). Nel settore legale è ora disponibile un riferimento completo…
La Eclipse Foundation , una delle più grandi fondazioni di software open source al mondo, ha annunciato oggi la formazione dell'Eclipse…