Nos últimos meses, a velocidade coa que se lanzaron innovadores grandes modelos lingüísticos é sorprendente. Neste artigo, cubriremos as principais semellanzas e diferenzas entre GPT4 e ChatGPT, incluíndo os métodos de adestramento, o rendemento, as capacidades e as limitacións.
GPT4 e ChatGPT baséanse en versións antigas de modelos GPT con melloras na arquitectura do modelo, empregando métodos de adestramento máis sofisticados e cun maior número de parámetros de adestramento.
Ambos os deseños baséanse na arquitectura de transformadores, que usa un codificador para procesar secuencias de entrada e un descodificador para xerar secuencias de saída. O codificador e o decodificador están conectados por un mecanismo, que permite que o decodificador preste máis atención ás secuencias de entrada máis significativas.
O informe técnico GPT4 de OpenAI ofrece pouca información sobre a arquitectura do modelo e o proceso de formación de GPT4, citando o "competitive landscape and the safety implications of large-scale models
“. O que si sabemos é que GPT4 e ChatGPT probablemente estean adestrados de xeito similar, o que é bastante diferente dos métodos de adestramento utilizados para GPT-2 e GPT-3. Coñecemos moito máis sobre métodos de adestramento para ChatGPT que GPT4, polo que comezaremos por aí.
ChatGPT está adestrado con conxuntos de datos de diálogo, incluídos datos de demostración, onde os anotadores humanos demostran o resultado esperado dun asistente de chatbot en resposta a solicitudes específicas. Estes datos utilízanse para sintonizar GPT3.5 coa aprendizaxe supervisada, producindo un modelo de política, que se utiliza para xerar varias respostas cando se proporcionan solicitudes. A continuación, os anotadores humanos clasifican cales das respostas para un determinado aviso deron os mellores resultados, o que se usa para adestrar un modelo de recompensa. O modelo de recompensa emprégase entón para afinar de forma iterativa o modelo de política mediante a aprendizaxe de reforzo.
ChatGPT está adestrado usando Aprendizaxe de reforzo a partir da retroalimentación humana (RLHF), unha forma de incorporar feedback humano para mellorar un modelo lingüístico durante a formación. Isto permite que a saída do modelo se aliña coa actividade solicitada polo usuario, en lugar de só prever a seguinte palabra nunha frase baseándose nun conxunto de datos xenéricos de adestramento, como GPT-3.
OpenAI aínda ten que revelar detalles sobre como adestrou GPT4. O seu informe técnico non inclúe "details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar
“. O que si sabemos é que GPT4 é un modelo multimodo xerativo tipo transformador adestrado. Tanto en datos dispoñibles publicamente como en datos de terceiros licenciados e posteriormente axustados mediante RLHF. Curiosamente, OpenAI compartiu detalles sobre as súas técnicas RLHF actualizadas para facer que as respostas dos modelos sexan máis precisas e teñan menos probabilidades de que se despracen fóra das barandillas de seguridade.
Despois de adestrar un modelo de política (como con ChatGPT), RLHF utilízase no adestramento adversario, un proceso que adestra un modelo en exemplos maliciosos destinados a enganar o modelo para que o defenda contra tales exemplos no futuro. No caso do GPT4, os expertos avalían as respostas do modelo político ás demandas contraditorias. Estas respostas utilízanse entón para adestrar modelos de recompensa adicionais que refinan de forma iterativa o modelo de política, resultando nun modelo que é menos probable que proporcione respostas perigosas, evasivas ou inexactas.
En termos de funcionalidade, ChatGPT e GPT4 son máis similares que diferentes. Do mesmo xeito que o seu predecesor, GPT-4 tamén interactúa nun estilo conversacional que pretende aliñarse co usuario. Como podes ver a continuación, as respostas entre os dous modelos para unha pregunta ampla son moi similares.
OpenAI coincide en que a distinción entre modelos pode ser sutil e afirma que "a diferenza sae cando a complexidade da tarefa alcanza un limiar suficiente". Dados os seis meses de adestramento adversario aos que se someteu o modelo base GPT4 na súa fase posterior ao adestramento, esta é probablemente unha caracterización precisa.
A diferenza de ChatGPT, que só acepta texto, GPT4 acepta solicitudes de texto e imaxes, devolvendo respostas de texto. Ata o momento de escribir este artigo, desafortunadamente, a capacidade de usar entradas de imaxe aínda non está dispoñible publicamente.
Como se mencionou anteriormente, OpenAI informa dunha mellora significativa no rendemento da seguridade para GPT4, en comparación co GPT-3.5 (a partir do cal se axustou ChatGPT). Non obstante, actualmente non está claro se:
débense ao propio modelo GPT4 ou ás probas contradictorias adicionais.
Ademais, GPT4 supera a CPT-3.5 na maioría dos exames académicos e profesionais realizados por humanos. En particular, GPT4 obtén puntuacións no percentil 90 no exame de barra uniforme en comparación co GPT-3.5, que puntua no percentil 10. GPT4 tamén supera significativamente ao seu predecesor en referencias de modelos de linguaxe tradicionais e outros modelos SOTA (aínda que ás veces por pouco).
Tanto ChatGPT como GPT4 teñen limitacións e riscos importantes. A folla do sistema GPT-4 inclúe información dunha exploración detallada destes riscos realizada por OpenAI.
Estes son só algúns dos riscos asociados a ambos os modelos:
Mentres ChatGPT e GPT-4 loitan coas mesmas limitacións e riscos, OpenAI fixo esforzos especiais, incluíndo numerosas probas contradictorias, para mitigalos para GPT-4. Aínda que isto é alentador, a folla do sistema GPT-4 demostra finalmente o vulnerable que era (e quizais aínda o sexa) ChatGPT. Para unha explicación máis detallada das consecuencias prexudiciais non desexadas, recomendo ler a folla do sistema GPT-4, que comeza na páxina 38 do Informe técnico GPT-4 .
Aínda que sabemos pouco sobre a arquitectura do modelo e os métodos de adestramento detrás de GPT4, parece haber unha versión refinada de ChatGPT. De feito, actualmente GPT4 é capaz de aceptar imaxes e entrada de texto, e os resultados son máis seguros, precisos e creativos. Desafortunadamente, teremos que aceptar a palabra de OpenAI, xa que GPT4 só está dispoñible como parte da subscrición a ChatGPT Plus.
Manterse informado sobre o progreso, os riscos e as limitacións destes modelos é esencial mentres navegamos por este panorama emocionante pero en rápida evolución dos grandes modelos lingüísticos.
BlogInnovazione.it
Realizouse unha operación de oftalmoplastia co visor comercial Apple Vision Pro no Policlínico de Catania...
O desenvolvemento da motricidade fina a través da cor prepara aos nenos para habilidades máis complexas como escribir. Para colorear…
O sector naval é unha verdadeira potencia económica mundial, que navega cara a un mercado de 150 millóns...
O pasado luns, o Financial Times anunciou un acordo con OpenAI. FT licencia o seu xornalismo de clase mundial...