Artikler

Robotter kan lære af deres medmennesker, flittigt og metodisk

Nylig forskning udført af Google i synergi med forskningscentre og virksomheder har givet vigtige resultater inden for maskinlæring (ML), såsom kunstigt syn og naturlig sprogbehandling.

Den vindende, fælles og delte tilgang udnytter store og mangfoldige datasæt og udtryksfulde modeller, der effektivt kan absorbere alle data. Mens der har været forskellige forsøg på at anvende denne tilgang til robotteknologi, havde robotter endnu ikke udnyttet meget dygtige modeller såvel som i andre underområder.

I årenes løb har vi ofte stolet på teknologi til at komplementere og forbedre vores menneskelige evner. Vi udviklede printere til at hjælpe med at dele oplysninger, regnemaskiner til matematik, flyvemaskiner til at hjælpe os med at bevæge os hurtigt. I de senere år, og især inden for maskinlæring, har vi udviklet nye måder at behandle information på for at drive nyttige teknologier som Search, Assistants, Maps og meget mere.

Transformer

Før 2017 systemerne af machine learning de kæmpede for at bestemme, hvilken del af deres input, der var relevant for at nå frem til det rigtige svar. Transformeren introducerede begrebet opmærksomhed: Ved at være opmærksom på den vigtige del af dens input kan modellen dynamisk vælge, hvilken information der betyder noget, og hvilken der ikke gør. Transformere har vist sig at være så relevante, at de er blevet moderen til moderne sprogmodeller, hvilket giver næring til meget af kunstig intelligens. I dag endda inden for kunstig intelligens, der genererer billeder som Imagen og Parti.

Gennem årene er Transformers blevet trænet i enorme mængder tekstdata fra nettet. De hjælper med at identificere tendenser og mønstre i sproget for at levere oversættelsestjenester, forme menneskelig samtale og give næring til søgeresultater af høj kvalitet. På det seneste er Transformers blevet mere udbredt for at hjælpe med at give mening med andre typer information udover sprog, herunder billeder, video og tale. Faktisk udmærker Transformers sig ved tale og visuelle opgaver, så vi var i stand til at bruge denne teknologi til at give mening om, hvad robotterne ser, og hvordan de handler.

Anvendelse af transformere til robotter

Fra et samarbejde med Everyday Robots har google vist, at integration af en kraftfuld sprogmodel som PaLM i en robotindlæringsmodel ikke kun kunne give folk mulighed for at kommunikere med en robot, men også forbedre robottens overordnede ydeevne. Denne sprogmodel gjorde det muligt for de hjælpende bots at forstå forskellige typer anmodninger – såsom "Jeg er sulten, kom med en snack" eller "hjælp mig med at rydde op i dette spild" – og udføre dem.

Google bruger den samme arkitektur som PaLM, Transformeren, for at hjælpe robotter med at lære mere generelt af det, de allerede har set. Så i stedet for blot at forstå sproget bag en anmodning som "Jeg er sulten, kom med en snack", kan hun lære - ligesom vi gør - af alle sine kollektive oplevelser ved at gøre ting som at se og hente snacks.

Forskningen

Transformerens træning blev udført ved hjælp af data indsamlet fra 130.000 demonstrationer – når en person betjener robotten til at udføre en opgave – af mere end 700 typer opgaver, udført af 13 Everyday Robots hjælperrobotter. Aktiviteterne omfatter færdigheder som at samle og placere genstande, åbne og lukke skuffer, sætte genstande ind og ud af skuffer, placere aflange genstande i øverste højre hjørne, vælte genstande, trække servietter og åbne dåser. Resultatet er en avanceret Robotics Transformer-model eller RT-1, der er i stand til at udføre over 700 opgaver. Succesraten er 97%, hvilket generaliserer hans læring til nye aktiviteter, objekter og miljøer.
Hvordan en Transformer-baseret sprogmodel forudsiger det næste ord baseret på de tendenser og mønstre, det ser i teksten. RT-1 blev trænet i robotperceptionsdata og tilsvarende handlinger, så den kunne identificere den næstmest sandsynlige adfærd, en robot skulle deltage i. Denne tilgang giver robotten mulighed for at generalisere, hvad den har lært, til nye opgaver. Det gør den ved at styre nye objekter og miljøer baseret på erfaringer i dets træningsdata – en sjælden bedrift for robotter, som typisk er strengt kodet til snævre opgaver.

Lær af hinanden

Som mennesker lærer vi af vores egne erfaringer og af hinanden. Vi deler ofte, hvad vi har lært, og omarbejder systemer baseret på de fejl, vi er stødt på. Selvom robotter ikke kommunikerer med hinanden, viser forskning, hvordan datasæt fra forskellige typer robotter med succes kan kombineres og adfærd overføres på tværs af dem. Google har vist, at ved at kombinere data fra flere robotter, er de i stand til næsten at fordoble modellens kapacitet og generalisere til en ny scene. Det betyder, at ved at fortsætte med at eksperimentere med forskellige robotter og nye opgaver, kan man muligvis øge træningsdata til RT-1, forbedre robotadfærd, hvilket gør det til en fleksibel og skalerbar tilgang til robotlæring.

På vej mod mere nyttig robotteknologi

Ligesom Google har open source-transformer-forskning, vil RT-1 også være open source for at fremme yderligere forskning inden for robotteknologi. Dette er et første skridt i retning af robotteknologiske læringssystemer, der muligvis er i stand til at håndtere den næsten uendelige variation af menneskecentrerede miljøer.

Ercole Palmeri

â € <