Artikelen

Korte analyse van opkomende vaardigheden in grote taalkundige modellen

Veel van het onderzoek naar kunstmatige intelligentie in de afgelopen twee decennia was gericht op het trainen van neurale netwerken, om een ​​enkele taak uit te voeren met specifieke trainingsdatasets. Classificeer bijvoorbeeld of een afbeelding een kat bevat, vat een artikel samen, vertaal van Engels naar Swahili ...

In de afgelopen jaren is er een nieuw paradigma ontstaan ​​rond taalmodellen: neurale netwerken die eenvoudig de volgende woorden in een zin voorspellen op basis van de vorige woorden in de zin.

Nadat ze zijn getraind in een grote hoeveelheid tekst zonder label, kunnen taalmodellen worden 'uitgenodigd' om willekeurige taken uit te voeren, zoals het voorspellen van het woord dat op een zin volgt. De taak van het vertalen van een Engelse zin in het Swahili kan bijvoorbeeld worden geherformuleerd als het voorspellen van het volgende woord: "De Swahili-vertaling van 'kunstmatige intelligentie' is ..."

Van taakspecifiek naar taak algemeen

Dit nieuwe paradigma vertegenwoordigt een verschuiving van modellen taakspecifiek, getraind om een ​​enkele taak uit te voeren, in modellen taak-algemeen, die verschillende taken kan uitvoeren. Plus de modellen taak-algemeen ze kunnen ook nieuwe activiteiten uitvoeren die niet expliciet in de trainingsgegevens zijn opgenomen. Bijvoorbeeld, GPT-3 toonde aan dat linguïstische modellen met succes tweecijferige getallen kunnen vermenigvuldigen, zelfs als ze niet expliciet zijn opgeleid om dit te doen. Dit vermogen om nieuwe taken uit te voeren kwam echter alleen voor bij modellen met een bepaald aantal parameters en getraind op een voldoende grote dataset.

Noodsituatie als gedrag

Het idee dat kwantitatieve veranderingen in een systeem tot nieuw gedrag kunnen leiden, staat bekend als: noodgeval, een concept gepopulariseerd door Nobelprijswinnaar Philip Anderson's essay uit 1972 "Meer is anders". In veel disciplines, zoals natuurkunde, biologie, economie en informatica, is het opkomende fenomeen waargenomen in complexe systemen.

In een recent artikel gepubliceerd Transacties op machine learning-onderzoek, het lab HAI in Stanford University defibehandelt opkomende vaardigheden in grote taalmodellen als volgt:

Een vaardigheid is opkomend als het niet aanwezig is in de kleinere modellen maar wel in de grotere modellen.

Innovatie nieuwsbrief
Mis het belangrijkste nieuws over innovatie niet. Meld u aan om ze per e-mail te ontvangen.

Om de aanwezigheid van vaardigheden te karakteriseren opkomende, verzamelde ons artikel de bevindingen voor verschillende modellen en benaderingen die de afgelopen twee jaar sinds de release van GPT-3 naar voren zijn gekomen. De paper onderzocht onderzoek dat de invloed van schaal analyseerde: modellen van verschillende groottes die waren getraind met verschillende computerbronnen. Voor veel activiteiten groeit het gedrag van het model voorspelbaar met de schaal of neemt het onvoorspelbaar toe van willekeurige prestaties tot hoger dan willekeurige waarden bij een specifieke schaaldrempel.

Lees voor meer informatie het artikel over opkomende vaardigheden in linguïstische modellen

Jason Wei is onderzoekswetenschapper bij Google Brain. Rishi Bommasani is een tweedejaars doctoraalstudent aan de afdeling Computerwetenschappen van Stanford, die hielp bij het lanceren van de Stanford Centrum voor Onderzoek naar Funderingsmodellen (CRFM). Lees hun studie "Opkomende vaardigheden van Large Language Models,", geschreven in samenwerking met wetenschappers van Google Research, Stanford University, UNC Chapel Hill en DeepMind.

Het opstellen BlogInnovazione.it

Innovatie nieuwsbrief
Mis het belangrijkste nieuws over innovatie niet. Meld u aan om ze per e-mail te ontvangen.

Recente artikelen

De Britse antitrusttoezichthouder slaat BigTech-alarm over GenAI

De Britse CMA heeft een waarschuwing afgegeven over het gedrag van Big Tech op de markt voor kunstmatige intelligentie. Daar…

April 18 2024

Casa Green: energierevolutie voor een duurzame toekomst in Italië

Het "Case Green"-decreet, opgesteld door de Europese Unie om de energie-efficiëntie van gebouwen te verbeteren, heeft zijn wetgevingsproces afgesloten met...

April 18 2024

E-commerce in Italië met +27% volgens het nieuwe rapport van Casaleggio Associati

Casaleggio Associati's jaarverslag over e-commerce in Italië gepresenteerd. Rapport getiteld “AI-Commerce: the frontiers of Ecommerce with Artificial Intelligence”.…

April 17 2024

Briljant idee: Bandalux presenteert Airpure®, het gordijn dat de lucht zuivert

Resultaat van voortdurende technologische innovatie en toewijding aan het milieu en het welzijn van mensen. Bandalux presenteert Airpure®, een tent…

April 12 2024