De afgelopen maanden is de snelheid waarmee innovatieve grote taalmodellen zijn uitgebracht verbluffend. In dit artikel behandelen we de belangrijkste overeenkomsten en verschillen tussen GPT4 en ChatGPT, inclusief de trainingsmethoden, prestaties, mogelijkheden en beperkingen.
GPT4 en ChatGPT bouwen voort op oudere versies van GPT-modellen met verbeteringen aan de modelarchitectuur, maken gebruik van meer geavanceerde trainingsmethoden en met een groter aantal trainingsparameters.
Beide ontwerpen zijn gebaseerd op een transformatorarchitectuur, die een encoder gebruikt om invoerreeksen te verwerken en een decoder om uitvoerreeksen te genereren. De encoder en decoder zijn verbonden door een mechanisme, waardoor de decoder meer aandacht kan besteden aan de belangrijkste invoerreeksen.
Het technische GPT4-rapport van OpenAI biedt weinig inzicht in de modelarchitectuur en het GPT4-formatieproces, daarbij verwijzend naar de “competitive landscape and the safety implications of large-scale models
“. Wat we wel weten is dat GPT4 en ChatGPT waarschijnlijk op dezelfde manier worden getraind, wat nogal een verschil is met de trainingsmethoden die worden gebruikt voor GPT-2 en GPT-3. We weten veel meer over trainingsmethoden voor ChatGPT dan GPT4, dus we beginnen daar.
ChatGPT is getraind met dialoogdatasets, inclusief demodata, waarbij menselijke annotators de verwachte output van een chatbot-assistent demonstreren in reactie op specifieke verzoeken. Deze gegevens worden gebruikt om GPT3.5 af te stemmen op begeleid leren, waardoor een beleidsmodel wordt geproduceerd dat wordt gebruikt om meerdere reacties te genereren wanneer verzoeken worden ingediend. Menselijke annotators classificeren vervolgens welke van de reacties op een bepaalde prompt de beste resultaten opleverden, wat wordt gebruikt om een beloningsmodel te trainen. Het beloningsmodel wordt vervolgens gebruikt om het beleidsmodel iteratief te verfijnen met behulp van bekrachtigingsleren.
ChatGPT wordt getraind met behulp van Versterking leren van menselijke feedback (RLHF), een manier om menselijke feedback op te nemen om een taalmodel tijdens de training te verbeteren. Hierdoor kan de modeluitvoer worden afgestemd op de door de gebruiker gevraagde activiteit, in plaats van alleen het volgende woord in een zin te voorspellen op basis van een verzameling generieke trainingsgegevens, zoals GPT-3.
OpenAI heeft nog geen details bekendgemaakt over hoe het GPT4 heeft getraind. Hun technisch rapport bevat niet "details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar
“. Wat we wel weten, is dat GPT4 een getraind generatief multimode-model in transformatorstijl is. Zowel op openbaar beschikbare gegevens als op gegevens van derden die in licentie zijn gegeven en vervolgens zijn verfijnd met behulp van RLHF. Interessant is dat OpenAI details heeft gedeeld over hun bijgewerkte RLHF-technieken om modelreacties nauwkeuriger te maken en minder snel buiten de vangrails te drijven.
Na het trainen van een beleidsmodel (zoals bij ChatGPT), wordt RLHF gebruikt in vijandige training, een proces dat een model traint op kwaadaardige voorbeelden die bedoeld zijn om het model te misleiden om het in de toekomst tegen dergelijke voorbeelden te verdedigen. In het geval van GPT4 evalueren de experts de reacties van het politieke model op de tegenstrijdige eisen. Deze reacties worden vervolgens gebruikt om aanvullende beloningsmodellen te trainen die het beleidsmodel iteratief verfijnen, wat resulteert in een model dat minder snel gevaarlijke, ontwijkende of onnauwkeurige reacties geeft.
Qua functionaliteit lijken ChatGPT en GPT4 meer op elkaar dan op elkaar. Net als zijn voorganger communiceert GPT-4 ook in een conversatiestijl die gericht is op afstemming met de gebruiker. Zoals je hieronder kunt zien, zijn de antwoorden tussen de twee modellen voor een brede vraag erg vergelijkbaar.
OpenAI is het ermee eens dat het onderscheid tussen modellen subtiel kan zijn en stelt dat "het verschil naar voren komt wanneer de complexiteit van de taak een voldoende drempel bereikt". Gezien de zes maanden van vijandige training die het GPT4-basismodel onderging in de post-trainingsfase, is dit waarschijnlijk een juiste karakterisering.
In tegenstelling tot ChatGPT, dat alleen tekst accepteert, accepteert GPT4 zowel beeld- als tekstprompts en retourneert tekstreacties. Op het moment van schrijven is de mogelijkheid om beeldinvoer te gebruiken helaas nog niet openbaar beschikbaar.
Zoals hierboven vermeld, rapporteert OpenAI een aanzienlijke verbetering in beveiligingsprestaties voor GPT4, vergeleken met GPT-3.5 (waarvan ChatGPT was afgestemd). Het is op dit moment echter onduidelijk of:
zijn te wijten aan het GPT4-model zelf of de aanvullende tegenstrijdige tests.
Bovendien presteert GPT4 beter dan CPT-3.5 bij de meeste door mensen afgelegde academische en professionele examens. Met name scoort GPT4 in het 90e percentiel op het Uniform Bar-examen in vergelijking met GPT-3.5, dat scoort in het 10e percentiel. GPT4 presteert ook aanzienlijk beter dan zijn voorganger op traditionele taalmodelbenchmarks en andere SOTA-modellen (zij het soms nipt).
Zowel ChatGPT als GPT4 hebben aanzienlijke beperkingen en risico's. Het GPT-4-systeemblad bevat inzichten uit een gedetailleerde verkenning van die risico's uitgevoerd door OpenAI.
Dit zijn slechts enkele van de risico's die aan beide modellen zijn verbonden:
Terwijl ChatGPT en GPT-4 worstelen met dezelfde beperkingen en risico's, heeft OpenAI speciale inspanningen geleverd, waaronder tal van tegenstrijdige tests, om deze voor GPT-4 te beperken. Hoewel dit bemoedigend is, laat het GPT-4-systeemblad uiteindelijk zien hoe kwetsbaar ChatGPT was (en misschien nog steeds is). Voor een meer gedetailleerde uitleg van schadelijke onbedoelde gevolgen, raad ik aan het GPT-4-systeemblad te lezen, dat begint op pagina 38 van de GPT-4 technisch rapport .
Hoewel we weinig weten over de modelarchitectuur en trainingsmethoden achter GPT4, lijkt er een verfijnde versie van ChatGPT te zijn. Momenteel kan GPT4 zelfs afbeeldingen en tekstinvoer accepteren, en de resultaten zijn veiliger, nauwkeuriger en creatiever. Helaas moeten we OpenAI op zijn woord geloven, aangezien GPT4 alleen beschikbaar is als onderdeel van het ChatGPT Plus-abonnement.
Op de hoogte blijven van de voortgang, risico's en beperkingen van deze modellen is essentieel terwijl we door dit opwindende maar snel evoluerende landschap van grote taalmodellen navigeren.
BlogInnovazione.it
Het ontwikkelen van fijne motoriek door middel van kleuren bereidt kinderen voor op complexere vaardigheden zoals schrijven. Kleuren…
De marinesector is een echte mondiale economische macht, die is genavigeerd naar een markt van 150 miljard...
Afgelopen maandag maakte de Financial Times een deal met OpenAI bekend. FT geeft licenties voor haar journalistiek van wereldklasse...
Miljoenen mensen betalen voor streamingdiensten en betalen maandelijkse abonnementskosten. De algemene mening is dat je…