GPT4 vs ChatGPT: analizziamo le modalità di addestramento, prestazioni, capacità e limitazioni

Si prevede che il nuovo modello di linguaggio generativo trasformerà totalmente interi settori, inclusi media, istruzione, diritto e tecnologia.

Negli ultimi mesi, la velocità con cui sono stati rilasciati innovativi modelli di linguaggi di grandi dimensioni è sorprendente. In questo articolo, tratteremo le principali somiglianze e differenze tra GPT4 vs ChatGPT, inclusi i metodi di allenamento, le prestazioni, le capacità e le limitazioni.

Indice dei contenuti

GPT4 vs ChatGPT: Somiglianze e differenze nei metodi di allenamento

GPT4 e ChatGPT si basano su versioni precedenti dei modelli GPT con miglioramenti all’architettura del modello, impiegando metodi di addestramento più sofisticati e con un numero più alto di parametri di addestramento.

Entrambi i modelli si basano sull’architettura del trasformatore, che utilizza un codificatore per elaborare le sequenze di ingresso e un decodificatore per generare sequenze di uscita. Il codificatore e il decodificatore sono collegati da un meccanismo, che consente al decodificatore di prestare maggiore attenzione alle sequenze di input più significative.

Il rapporto tecnico GPT4 di OpenAI offre poche informazioni sull’architettura del modello e sul processo di formazione di GPT4, citando il “competitive landscape and the safety implications of large-scale models“. Quello che sappiamo è che GPT4 e ChatGPT sono probabilmente addestrati in modo simile, il che rappresenta una bella differenza dai metodi di addestramento utilizzati per GPT-2 e GPT-3. Sappiamo molto di più sui metodi di formazione per ChatGPT rispetto a GPT4, quindi inizieremo da lì.

ChatGPT

ChatGPT viene addestrato con set di dati di dialogo, inclusi dati dimostrativi, in cui gli annotatori umani forniscono dimostrazioni dell’output previsto di un assistente chatbot in risposta a richieste specifiche. Questi dati vengono utilizzati per mettere a punto GPT3.5 con apprendimento supervisionato, producendo un modello di policy, che viene utilizzato per generare risposte multiple quando vengono fornite richieste. Gli annotatori umani classificano quindi quale delle risposte per un dato prompt ha prodotto i migliori risultati, che viene utilizzato per addestrare un modello di ricompensa. Il modello di ricompensa viene quindi utilizzato per mettere a punto in modo iterativo il modello di policy utilizzando l’apprendimento per rinforzo.

ChatGPT viene addestrato utilizzando il Reinforcement Learning from Human Feedback (RLHF), un modo per incorporare il feedback umano per migliorare un modello linguistico durante la formazione. Ciò consente all’output del modello di allinearsi all’attività richiesta dall’utente, anziché limitarsi a prevedere la parola successiva in una frase basata su un corpus di dati di addestramento generici, come GPT-3.

GPT4

OpenAI deve ancora divulgare i dettagli su come ha addestrato GPT4. Il loro rapporto tecnico non include “details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar“. Quello che sappiamo è che GPT4 è un modello multimodale generativo in stile trasformatore addestrato. Sia su dati pubblicamente disponibili che su dati di terze parti concessi in licenza e successivamente messo a punto utilizzando RLHF. È interessante notare che OpenAI ha condiviso i dettagli relativi alle loro tecniche RLHF aggiornate per rendere le risposte del modello più accurate e meno propense a deviare al di fuori dei guardrail di sicurezza.

Dopo aver addestrato un modello di policy (come con ChatGPT), RLHF viene utilizzato nell’adversarial training, un processo che addestra un modello su esempi dannosi intesi a ingannare il modello al fine di difenderlo da tali esempi in futuro. Nel caso di GPT4, gli esperti valutano le risposte del modello politico alle richieste contraddittorie. Queste risposte vengono quindi utilizzate per addestrare ulteriori modelli di ricompensa che perfezionano in modo iterativo il modello di politica, risultando in un modello che ha meno probabilità di fornire risposte pericolose, evasive o imprecise.

GPT4 vs ChatGPT somiglianze e differenze in termini di prestazioni e capacità

Capacità

In termini di funzionalità, ChatGPT e GPT4 sono più simili che diversi. Come il suo predecessore, anche GPT-4 interagisce in uno stile conversazionale che mira ad allinearsi con l’utente. Come puoi vedere di seguito, le risposte tra i due modelli per una domanda ampia sono molto simili.

OpenAI concorda sul fatto che la distinzione tra i modelli può essere sottile e afferma che “la differenza viene fuori quando la complessità dell’attività raggiunge una soglia sufficiente”. Dati i sei mesi di addestramento contraddittorio cui il modello base GPT4 è stato sottoposto nella sua fase post-addestramento, questa è probabilmente una caratterizzazione accurata.

A differenza di ChatGPT, che accetta solo testo, GPT4 accetta prompt composti sia da immagini che da testo, restituendo risposte testuali. Al momento della pubblicazione di questo articolo, sfortunatamente, la capacità di utilizzare input di immagini non è ancora disponibile al pubblico.

Prestazione

Come accennato in precedenza, OpenAI segnala un miglioramento significativo delle prestazioni di sicurezza per GPT4, rispetto a GPT-3.5 (da cui ChatGPT è stato messo a punto). Tuttavia, al momento non è chiaro se:

la riduzione delle risposte alle richieste di contenuti non consentiti,
la riduzione della generazione di contenuti tossici e
il miglioramento delle risposte ad argomenti sensibili

siano dovuti al modello GPT4 stesso o ai test contraddittori aggiuntivi.

Inoltre, GPT4 supera CPT-3.5 nella maggior parte degli esami accademici e professionali sostenuti da esseri umani. In particolare, GPT4 segna nel 90° percentile dell’esame Uniform Bar rispetto a GPT-3.5, che segna nel 10° percentile. GPT4 supera in modo significativo anche il suo predecessore sui benchmark del modello di linguaggio tradizionale e su altri modelli SOTA (anche se a volte di poco).

GPT4 vs ChatGPT: differenze e limiti

Sia ChatGPT che GPT4 presentano limiti e rischi significativi. La scheda di sistema GPT-4 include approfondimenti da un’esplorazione dettagliata di tali rischi condotta da OpenAI.

Questi sono solo alcuni dei rischi associati a entrambi i modelli:

Allucinazioni (la tendenza a produrre contenuti privi di senso o di fatto imprecisi)
Produrre contenuti dannosi che violano le politiche di OpenAI (ad es. Incitamento all’odio, incitamento alla violenza)
Amplificare e perpetuare gli stereotipi delle persone emarginate
Generare disinformazione realistica intesa a ingannare

Mentre ChatGPT e GPT-4 lottano con gli stessi limiti e rischi, OpenAI ha compiuto sforzi speciali, inclusi numerosi test contraddittori, per mitigarli per GPT-4. Sebbene ciò sia incoraggiante, la scheda di sistema GPT-4 alla fine dimostra quanto ChatGPT fosse vulnerabile (e forse lo sia ancora). Per una spiegazione più dettagliata delle conseguenze indesiderate dannose, consiglio di leggere la scheda di sistema GPT-4, che inizia a pagina 38 del rapporto tecnico GPT-4 .

Conclusione

Anche se conosciamo poco sull’architettura del modello, e sui metodi di addestramento alla base di GPT4, sembra esserci una versione raffinata di ChatGPT. Infatti attualmente GPT4 è in grado di accettare immagini e testo in input, e i risultati sono più sicuri, più accurati e più creativi. Sfortunatamente, dovremo credere alla parola di OpenAI, poiché GPT4 è disponibile solo come parte dell’abbonamento ChatGPT Plus.

Rimanere informati sui progressi, i rischi e i limiti di questi modelli è essenziale mentre navighiamo in questo panorama entusiasmante ma in rapida evoluzione di modelli linguistici di grandi dimensioni.

BlogInnovazione.it