In de afgelopen jaren is er een nieuw paradigma ontstaan rond taalmodellen: neurale netwerken die eenvoudig de volgende woorden in een zin voorspellen op basis van de vorige woorden in de zin.
Nadat ze zijn getraind in een grote hoeveelheid tekst zonder label, kunnen taalmodellen worden 'uitgenodigd' om willekeurige taken uit te voeren, zoals het voorspellen van het woord dat op een zin volgt. De taak van het vertalen van een Engelse zin in het Swahili kan bijvoorbeeld worden geherformuleerd als het voorspellen van het volgende woord: "De Swahili-vertaling van 'kunstmatige intelligentie' is ..."
Dit nieuwe paradigma vertegenwoordigt een verschuiving van modellen taakspecifiek, getraind om een enkele taak uit te voeren, in modellen taak-algemeen, die verschillende taken kan uitvoeren. Plus de modellen taak-algemeen ze kunnen ook nieuwe activiteiten uitvoeren die niet expliciet in de trainingsgegevens zijn opgenomen. Bijvoorbeeld, GPT-3 toonde aan dat linguïstische modellen met succes tweecijferige getallen kunnen vermenigvuldigen, zelfs als ze niet expliciet zijn opgeleid om dit te doen. Dit vermogen om nieuwe taken uit te voeren kwam echter alleen voor bij modellen met een bepaald aantal parameters en getraind op een voldoende grote dataset.
Het idee dat kwantitatieve veranderingen in een systeem tot nieuw gedrag kunnen leiden, staat bekend als: noodgeval, een concept gepopulariseerd door Nobelprijswinnaar Philip Anderson's essay uit 1972 "Meer is anders". In veel disciplines, zoals natuurkunde, biologie, economie en informatica, is het opkomende fenomeen waargenomen in complexe systemen.
In een recent artikel gepubliceerd Transacties op machine learning-onderzoek, het lab HAI in Stanford University defibehandelt opkomende vaardigheden in grote taalmodellen als volgt:
Een vaardigheid is opkomend als het niet aanwezig is in de kleinere modellen maar wel in de grotere modellen.
Om de aanwezigheid van vaardigheden te karakteriseren opkomende, verzamelde ons artikel de bevindingen voor verschillende modellen en benaderingen die de afgelopen twee jaar sinds de release van GPT-3 naar voren zijn gekomen. De paper onderzocht onderzoek dat de invloed van schaal analyseerde: modellen van verschillende groottes die waren getraind met verschillende computerbronnen. Voor veel activiteiten groeit het gedrag van het model voorspelbaar met de schaal of neemt het onvoorspelbaar toe van willekeurige prestaties tot hoger dan willekeurige waarden bij een specifieke schaaldrempel.
Lees voor meer informatie het artikel over opkomende vaardigheden in linguïstische modellen
Jason Wei is onderzoekswetenschapper bij Google Brain. Rishi Bommasani is een tweedejaars doctoraalstudent aan de afdeling Computerwetenschappen van Stanford, die hielp bij het lanceren van de Stanford Centrum voor Onderzoek naar Funderingsmodellen (CRFM). Lees hun studie "Opkomende vaardigheden van Large Language Models,", geschreven in samenwerking met wetenschappers van Google Research, Stanford University, UNC Chapel Hill en DeepMind.
Het opstellen BlogInnovazione.it
Voorspellend onderhoud zorgt voor een revolutie in de olie- en gassector, met een innovatieve en proactieve benadering van fabrieksbeheer.…
De Britse CMA heeft een waarschuwing afgegeven over het gedrag van Big Tech op de markt voor kunstmatige intelligentie. Daar…
Het "Case Green"-decreet, opgesteld door de Europese Unie om de energie-efficiëntie van gebouwen te verbeteren, heeft zijn wetgevingsproces afgesloten met...
Casaleggio Associati's jaarverslag over e-commerce in Italië gepresenteerd. Rapport getiteld “AI-Commerce: the frontiers of Ecommerce with Artificial Intelligence”.…