Recenti ricerche svolte da Google in sinergia con centri di ricerca e società, hanno dato importanti risultati sull’apprendimento automatico (ML), come la visione artificiale e l’elaborazione del linguaggio naturale.

L’approccio vincente, comune e condiviso sfrutta set di dati ampi e diversificati e modelli espressivi in grado di assorbire tutti i dati in modo efficace. Sebbene ci siano stati vari tentativi di applicare questo approccio alla robotica, i robot non avevano ancora sfruttato modelli altamente capaci così come in altri sottocampi.

Negli anni, abbiamo spesso fatto affidamento sulla tecnologia per integrare, e potenziare, le nostre capacità umane. Abbiamo sviluppato le stampanti per aiutare a condividere le informazioni, la calcolatrice per matematica, l’aeroplano per muoverci rapidamente. Negli ultimi anni, e in particolare nel campo dell’apprendimento automatico, abbiamo sviluppato nuovi modi per elaborare le informazioni per alimentare tecnologie utili come Ricerca, Assistenti, Mappe e molto altro.

Transformer

Prima del 2017 i sistemi di machine learning faticavano a determinare quale parte del loro input fosse rilevante per arrivare alla risposta corretta. Il Transformer ha introdotto la nozione di attenzione: prestando attenzione alla parte importante del suo input, il modello può scegliere dinamicamente quali informazioni contano e quali no. I transformer si sono dimostrati così rilevanti da diventare la madre dei moderni modelli linguistici, alimentando gran parte dell’intelligenza artificiale. Oggi, anche nel settore dell’intelligenza artificiale che genera immagini come Imagen e Parti.

Nel corso degli anni, i Transformer sono stati addestrati su grandi quantità di dati di testo dal web. Aiutano a identificare tendenze e modelli nella lingua per fornire servizi di traduzione, modellare la conversazione umana e alimentare risultati di ricerca di alta qualità. Ultimamente, i Transformer sono stati adottati più ampiamente per aiutare a dare un senso ad altri tipi di informazioni oltre al linguaggio, tra cui immagini, video e parlato. In effetti, i Transformers eccellono nelle attività linguistiche e visive, quindi siamo stati in grado di utilizzare questa tecnologia per dare un senso a ciò che vedono i robot e a come agiscono.

Applicazione dei trasformatori ai robot

Da una collaborazione con Everyday Robots, google ha dimostrato che l’integrazione di un potente modello linguistico come PaLM, in un modello di apprendimento robotico potrebbe non solo consentire alle persone di comunicare con un robot, ma anche migliorare le prestazioni complessive del robot. Questo modello linguistico ha permesso ai robot aiutanti di comprendere diversi tipi di richieste – come “Ho fame, portami uno spuntino” o “aiutami a ripulire questa fuoriuscita” – ed eseguirle.

Google usando la medesima architettura di PaLM, il Transformer, per aiutare i robot a imparare più in generale da ciò che hanno già visto. Quindi, piuttosto che limitarsi a comprendere la lingua alla base di una richiesta come “Ho fame, portami uno spuntino”, può imparare – proprio come facciamo noi – da tutte le sue esperienze collettive facendo cose come guardare e andare a prendere snack.

Articoli correlati
Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.
La ricerca

L’addestramento del Transformer è stato fatto sfruttando i dati raccolti da 130.000 dimostrazioni – quando una persona aziona il robot per eseguire un compito – di oltre 700 tipi di compiti, completati da 13 robot helper di Everyday Robots. Le attività includono abilità come raccogliere e posizionare oggetti, aprire e chiudere cassetti, inserire e estrarre oggetti dai cassetti, posizionare oggetti allungati in alto a destra, rovesciare oggetti, tirare tovaglioli e aprire barattoli. Il risultato è un modello Robotics Transformer all’avanguardia, o RT-1, in grado di eseguire oltre 700 attività. La percentuale di successo è del 97%, generalizzando i suoi apprendimenti a nuove attività, oggetti e ambienti.
Come un modello linguistico basato su Transformer prevede la parola successiva in base alle tendenze e ai modelli che vede nel testo. RT-1 è stato addestrato sui dati di percezione robotica e azioni corrispondenti in modo da poter identificare il prossimo comportamento più probabile che un robot dovrebbe prendere. Questo approccio consente al robot di generalizzare ciò che ha appreso a nuovi compiti. Questo avviene tramite la gestione di nuovi oggetti e ambienti in base alle esperienze nei suoi dati di addestramento: un’impresa rara per i robot, che in genere sono rigorosamente codificati per compiti ristretti.

Imparare gli uni dagli altri

Come esseri umani, impariamo dalle nostre esperienze personali e gli uni dagli altri. Spesso condividiamo ciò che abbiamo imparato e rielaboriamo i sistemi in base ai fallimenti che abbiamo riscontrato. Sebbene i robot non comunichino tra loro, la ricerca mostra come è possibile combinare con successo set di dati di diversi tipi di robot e trasferire i comportamenti attraverso di essi. Google ha dimostrato che combinando i dati di diversi robot, si è in grado di quasi raddoppiare la capacità del modello e di generalizzare a una nuova scena. Ciò significa che continuando a sperimentare diversi robot e nuove attività, si potrebbe essere in grado di aumentare i dati di addestramento per RT-1, migliorando il comportamento dei robot, rendendolo un approccio flessibile e scalabile all’apprendimento dei robot.

Verso una robotica più utile

Come Google ha reso open source la ricerca su Transformer, anche RT-1 sarà open source per promuovere ulteriori ricerche nello spazio della robotica. Questo è un primo passo verso sistemi di apprendimento robotico che potrebbero essere in grado di gestire la variabilità quasi infinita degli ambienti incentrati sull’uomo.

Ercole Palmeri

​  

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.