bienes

GPT4 vs ChatGPT: analizamos métodos de entrenamiento, rendimiento, capacidades y limitaciones

Se espera que el nuevo modelo de lenguaje generativo transforme por completo industrias enteras, incluidos los medios, la educación, el derecho y la tecnología. 

En los últimos meses, la velocidad con la que se han lanzado modelos innovadores de lenguaje grande es asombrosa. En este artículo, cubriremos las principales similitudes y diferencias entre GPT4 y ChatGPT, incluidos los métodos de entrenamiento, el rendimiento, las capacidades y las limitaciones.

GPT4 frente a ChatGPT: Similitudes y diferencias en los métodos de entrenamiento

GPT4 y ChatGPT se basan en versiones anteriores de modelos GPT con mejoras en la arquitectura del modelo, empleando métodos de entrenamiento más sofisticados y con una mayor cantidad de parámetros de entrenamiento.

Ambos diseños se basan en la arquitectura del transformador, que utiliza un codificador para procesar secuencias de entrada y un decodificador para generar secuencias de salida. El codificador y el decodificador están conectados por un mecanismo que permite que el decodificador preste más atención a las secuencias de entrada más significativas.

El informe técnico de GPT4 de OpenAI ofrece poca información sobre la arquitectura del modelo y el proceso de formación de GPT4, citando el "competitive landscape and the safety implications of large-scale models“. Lo que sí sabemos es que GPT4 y ChatGPT probablemente se entrenen de manera similar, lo que es bastante diferente de los métodos de entrenamiento utilizados para GPT-2 y GPT-3. Sabemos mucho más sobre los métodos de entrenamiento para ChatGPT que para GPT4, así que empezaremos por ahí.

ChatGPT

ChatGPT está entrenado con conjuntos de datos de diálogo, incluidos datos de demostración, donde los anotadores humanos demuestran el resultado esperado de un asistente de chatbot en respuesta a solicitudes específicas. Estos datos se utilizan para ajustar GPT3.5 con aprendizaje supervisado, produciendo un modelo de política, que se utiliza para generar múltiples respuestas cuando se proporcionan solicitudes. Luego, los anotadores humanos clasifican cuál de las respuestas para un aviso determinado produjo los mejores resultados, lo que se usa para entrenar un modelo de recompensa. Luego, el modelo de recompensa se usa para ajustar de manera iterativa el modelo de política mediante el aprendizaje por refuerzo.

ChatGPT está entrenado usando Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), una forma de incorporar retroalimentación humana para mejorar un modelo de lenguaje durante el entrenamiento. Esto permite que la salida del modelo se alinee con la actividad solicitada por el usuario, en lugar de solo predecir la siguiente palabra en una oración basada en un cuerpo de datos de entrenamiento genéricos, como GPT-3.

GPT4

OpenAI aún tiene que divulgar detalles sobre cómo entrenó a GPT4. Su informe técnico no incluye “details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar“. Lo que sí sabemos es que GPT4 es un modelo multimodo generativo de estilo transformador entrenado. Tanto en datos disponibles públicamente como en datos de terceros licenciados y posteriormente ajustados mediante RLHFCuriosamente, OpenAI compartió detalles sobre sus técnicas RLHF actualizadas para hacer que las respuestas del modelo sean más precisas y menos probable que se salgan de las barandillas de seguridad.

Después de entrenar un modelo de política (como con ChatGPT), RLHF se usa en el entrenamiento contradictorio, un proceso que entrena un modelo en ejemplos maliciosos destinados a engañar al modelo para que lo defienda contra tales ejemplos en el futuro. En el caso de GPT4, los expertos evalúan las respuestas del modelo político a las demandas contradictorias. Estas respuestas luego se usan para entrenar modelos de recompensa adicionales que refinan iterativamente el modelo de política, lo que da como resultado un modelo que tiene menos probabilidades de proporcionar respuestas peligrosas, evasivas o inexactas.

Similitudes y diferencias de GPT4 vs ChatGPT en términos de rendimiento y capacidades

Capacidad

En términos de funcionalidad, ChatGPT y GPT4 son más similares que diferentes. Al igual que su predecesor, GPT-4 también interactúa en un estilo conversacional que busca alinearse con el usuario. Como puede ver a continuación, las respuestas entre los dos modelos para una pregunta amplia son muy similares.

OpenAI está de acuerdo en que la distinción entre modelos puede ser sutil y afirma que “la diferencia surge cuando la complejidad de la tarea alcanza un umbral suficiente”. Dados los seis meses de entrenamiento contradictorio al que se sometió el modelo base GPT4 en su fase posterior al entrenamiento, esta es probablemente una caracterización precisa.

A diferencia de ChatGPT, que solo acepta texto, GPT4 acepta indicaciones tanto de imagen como de texto, y devuelve respuestas de texto. Al momento de escribir este artículo, desafortunadamente, la capacidad de usar entradas de imágenes aún no está disponible públicamente.

rendimiento

Como se mencionó anteriormente, OpenAI informa una mejora significativa en el rendimiento de seguridad para GPT4, en comparación con GPT-3.5 (a partir del cual se ajustó ChatGPT). Sin embargo, actualmente no está claro si:

  • la reducción de las respuestas a las solicitudes de contenidos prohibidos,
  • la reducción de la generación de contenidos tóxicos e
  • mejorar las respuestas a temas delicados

se deben al propio modelo GPT4 o a las pruebas contradictorias adicionales.

Además, GPT4 supera a CPT-3.5 en la mayoría de los exámenes académicos y profesionales realizados por humanos. En particular, GPT4 obtiene puntajes en el percentil 90 en el examen de barra uniforme en comparación con GPT-3.5, que obtiene puntajes en el percentil 10. GPT4 también supera significativamente a su predecesor en los puntos de referencia del modelo de lenguaje tradicional y otros modelos SOTA (aunque a veces por poco).

GPT4 vs ChatGPT: diferencias y limitacionesi

Tanto ChatGPT como GPT4 tienen limitaciones y riesgos significativos. La hoja del sistema GPT-4 incluye información de una exploración detallada de esos riesgos realizada por OpenAI.

Estos son solo algunos de los riesgos asociados con ambos modelos:

  • Alucinaciones (la tendencia a producir contenido sin sentido o fácticamente inexacto)
  • Producir contenido dañino que viole las políticas de OpenAI (por ejemplo, discurso de odio, incitación a la violencia)
  • Amplificar y perpetuar los estereotipos de las personas marginadas
  • Generar desinformación realista con la intención de engañar

Si bien ChatGPT y GPT-4 luchan con las mismas limitaciones y riesgos, OpenAI ha realizado esfuerzos especiales, incluidas numerosas pruebas contradictorias, para mitigarlos para GPT-4. Si bien esto es alentador, la hoja del sistema GPT-4 finalmente demuestra cuán vulnerable era ChatGPT (y quizás aún lo sea). Para una explicación más detallada de las consecuencias dañinas no deseadas, recomiendo leer la hoja del sistema GPT-4, que comienza en la página 38 del Informe técnico GPT-4 .

Conclusión

Si bien sabemos poco sobre la arquitectura del modelo y los métodos de capacitación detrás de GPT4, parece haber una versión refinada de ChatGPT. De hecho, actualmente GPT4 puede aceptar imágenes y entrada de texto, y los resultados son más seguros, más precisos y más creativos. Desafortunadamente, tendremos que confiar en la palabra de OpenAI, ya que GPT4 solo está disponible como parte de la suscripción a ChatGPT Plus.

Mantenerse informado sobre el progreso, los riesgos y las limitaciones de estos modelos es esencial a medida que navegamos por este panorama emocionante pero en rápida evolución de grandes modelos de lenguaje.

BlogInnovazione.it

También podría interesarte

Boletín de innovación
No te pierdas las noticias más importantes sobre innovación. Regístrese para recibirlos por correo electrónico.

Artículos recientes

Intervención innovadora en Realidad Aumentada, con visor de Apple en el Policlínico de Catania

En el Policlínico de Catania se realizó una operación de oftalmoplastia con el visor comercial Apple Vision Pro…

3 2024 mayo

Los beneficios de los dibujos para colorear para niños: un mundo de magia para todas las edades

El desarrollo de la motricidad fina mediante la coloración prepara a los niños para habilidades más complejas como la escritura. Colorear…

2 2024 mayo

El futuro está aquí: cómo la industria naviera está revolucionando la economía global

El sector naval es una auténtica potencia económica mundial, que ha navegado hacia un mercado de 150 mil millones...

1 2024 mayo

Editores y OpenAI firman acuerdos para regular el flujo de información procesada por la Inteligencia Artificial

El lunes pasado, el Financial Times anunció un acuerdo con OpenAI. FT otorga licencia para su periodismo de clase mundial...

Abril 30 2024