Artikelen

GPT4 versus ChatGPT: we analyseren trainingsmethoden, prestaties, mogelijkheden en beperkingen

Het nieuwe generatieve taalmodel zal naar verwachting hele bedrijfstakken volledig transformeren, inclusief media, onderwijs, recht en technologie.

De afgelopen maanden is de snelheid waarmee innovatieve grote taalmodellen zijn uitgebracht verbluffend. In dit artikel behandelen we de belangrijkste overeenkomsten en verschillen tussen GPT4 en ChatGPT, inclusief de trainingsmethoden, prestaties, mogelijkheden en beperkingen.

Inhoudsopgave

GPT4 versus ChatGPT: Overeenkomsten en verschillen in trainingsmethoden

GPT4 en ChatGPT bouwen voort op oudere versies van GPT-modellen met verbeteringen aan de modelarchitectuur, maken gebruik van meer geavanceerde trainingsmethoden en met een groter aantal trainingsparameters.

Beide ontwerpen zijn gebaseerd op een transformatorarchitectuur, die een encoder gebruikt om invoerreeksen te verwerken en een decoder om uitvoerreeksen te genereren. De encoder en decoder zijn verbonden door een mechanisme, waardoor de decoder meer aandacht kan besteden aan de belangrijkste invoerreeksen.

Het technische GPT4-rapport van OpenAI biedt weinig inzicht in de modelarchitectuur en het GPT4-formatieproces, daarbij verwijzend naar de “competitive landscape and the safety implications of large-scale models“. Wat we wel weten is dat GPT4 en ChatGPT waarschijnlijk op dezelfde manier worden getraind, wat nogal een verschil is met de trainingsmethoden die worden gebruikt voor GPT-2 en GPT-3. We weten veel meer over trainingsmethoden voor ChatGPT dan GPT4, dus we beginnen daar.

ChatGPT

ChatGPT is getraind met dialoogdatasets, inclusief demodata, waarbij menselijke annotators de verwachte output van een chatbot-assistent demonstreren in reactie op specifieke verzoeken. Deze gegevens worden gebruikt om GPT3.5 af te stemmen op begeleid leren, waardoor een beleidsmodel wordt geproduceerd dat wordt gebruikt om meerdere reacties te genereren wanneer verzoeken worden ingediend. Menselijke annotators classificeren vervolgens welke van de reacties op een bepaalde prompt de beste resultaten opleverden, wat wordt gebruikt om een beloningsmodel te trainen. Het beloningsmodel wordt vervolgens gebruikt om het beleidsmodel iteratief te verfijnen met behulp van bekrachtigingsleren.

ChatGPT wordt getraind met behulp van Versterking leren van menselijke feedback (RLHF), een manier om menselijke feedback op te nemen om een taalmodel tijdens de training te verbeteren. Hierdoor kan de modeluitvoer worden afgestemd op de door de gebruiker gevraagde activiteit, in plaats van alleen het volgende woord in een zin te voorspellen op basis van een verzameling generieke trainingsgegevens, zoals GPT-3.

GPT4

OpenAI heeft nog geen details bekendgemaakt over hoe het GPT4 heeft getraind. Hun technisch rapport bevat niet "details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar“. Wat we wel weten, is dat GPT4 een getraind generatief multimode-model in transformatorstijl is. Zowel op openbaar beschikbare gegevens als op gegevens van derden die in licentie zijn gegeven en vervolgens zijn verfijnd met behulp van RLHF. Interessant is dat OpenAI details heeft gedeeld over hun bijgewerkte RLHF-technieken om modelreacties nauwkeuriger te maken en minder snel buiten de vangrails te drijven.

Na het trainen van een beleidsmodel (zoals bij ChatGPT), wordt RLHF gebruikt in vijandige training, een proces dat een model traint op kwaadaardige voorbeelden die bedoeld zijn om het model te misleiden om het in de toekomst tegen dergelijke voorbeelden te verdedigen. In het geval van GPT4 evalueren de experts de reacties van het politieke model op de tegenstrijdige eisen. Deze reacties worden vervolgens gebruikt om aanvullende beloningsmodellen te trainen die het beleidsmodel iteratief verfijnen, wat resulteert in een model dat minder snel gevaarlijke, ontwijkende of onnauwkeurige reacties geeft.

GPT4 versus ChatGPT overeenkomsten en verschillen in termen van prestaties en mogelijkheden

Hoedanigheid

Qua functionaliteit lijken ChatGPT en GPT4 meer op elkaar dan op elkaar. Net als zijn voorganger communiceert GPT-4 ook in een conversatiestijl die gericht is op afstemming met de gebruiker. Zoals je hieronder kunt zien, zijn de antwoorden tussen de twee modellen voor een brede vraag erg vergelijkbaar.

OpenAI is het ermee eens dat het onderscheid tussen modellen subtiel kan zijn en stelt dat "het verschil naar voren komt wanneer de complexiteit van de taak een voldoende drempel bereikt". Gezien de zes maanden van vijandige training die het GPT4-basismodel onderging in de post-trainingsfase, is dit waarschijnlijk een juiste karakterisering.

In tegenstelling tot ChatGPT, dat alleen tekst accepteert, accepteert GPT4 zowel beeld- als tekstprompts en retourneert tekstreacties. Op het moment van schrijven is de mogelijkheid om beeldinvoer te gebruiken helaas nog niet openbaar beschikbaar.

prestatie

Zoals hierboven vermeld, rapporteert OpenAI een aanzienlijke verbetering in beveiligingsprestaties voor GPT4, vergeleken met GPT-3.5 (waarvan ChatGPT was afgestemd). Het is op dit moment echter onduidelijk of:

de vermindering van reacties op verzoeken om verboden inhoud,
de vermindering van het genereren van toxische inhoud e
het verbeteren van reacties op gevoelige onderwerpen

zijn te wijten aan het GPT4-model zelf of de aanvullende tegenstrijdige tests.

Bovendien presteert GPT4 beter dan CPT-3.5 bij de meeste door mensen afgelegde academische en professionele examens. Met name scoort GPT4 in het 90e percentiel op het Uniform Bar-examen in vergelijking met GPT-3.5, dat scoort in het 10e percentiel. GPT4 presteert ook aanzienlijk beter dan zijn voorganger op traditionele taalmodelbenchmarks en andere SOTA-modellen (zij het soms nipt).

GPT4 versus ChatGPT: verschillen en beperkingeni

Zowel ChatGPT als GPT4 hebben aanzienlijke beperkingen en risico's. Het GPT-4-systeemblad bevat inzichten uit een gedetailleerde verkenning van die risico's uitgevoerd door OpenAI.

Dit zijn slechts enkele van de risico's die aan beide modellen zijn verbonden:

Hallucinaties (de neiging om onzinnige of feitelijk onjuiste inhoud te produceren)
Schadelijke inhoud produceren die in strijd is met het OpenAI-beleid (bijv. aanzetten tot haat, aanzetten tot geweld)
Versterk en bestendig stereotypen van gemarginaliseerde mensen
Genereer realistische desinformatie die bedoeld is om te misleiden

Terwijl ChatGPT en GPT-4 worstelen met dezelfde beperkingen en risico's, heeft OpenAI speciale inspanningen geleverd, waaronder tal van tegenstrijdige tests, om deze voor GPT-4 te beperken. Hoewel dit bemoedigend is, laat het GPT-4-systeemblad uiteindelijk zien hoe kwetsbaar ChatGPT was (en misschien nog steeds is). Voor een meer gedetailleerde uitleg van schadelijke onbedoelde gevolgen, raad ik aan het GPT-4-systeemblad te lezen, dat begint op pagina 38 van de GPT-4 technisch rapport .

Conclusie

Hoewel we weinig weten over de modelarchitectuur en trainingsmethoden achter GPT4, lijkt er een verfijnde versie van ChatGPT te zijn. Momenteel kan GPT4 zelfs afbeeldingen en tekstinvoer accepteren, en de resultaten zijn veiliger, nauwkeuriger en creatiever. Helaas moeten we OpenAI op zijn woord geloven, aangezien GPT4 alleen beschikbaar is als onderdeel van het ChatGPT Plus-abonnement.

Op de hoogte blijven van de voortgang, risico's en beperkingen van deze modellen is essentieel terwijl we door dit opwindende maar snel evoluerende landschap van grote taalmodellen navigeren.

BlogInnovazione.it