bienes

Breve análisis de las habilidades emergentes en grandes modelos lingüísticos

Gran parte de la investigación sobre inteligencia artificial en las últimas dos décadas se ha centrado en entrenar redes neuronales para realizar una sola tarea con conjuntos de datos de entrenamiento específicos. Por ejemplo, clasificar si una imagen contiene un gato, resumir un artículo, traducir del inglés al swahili…

En los últimos años, ha evolucionado un nuevo paradigma en torno a los modelos de lenguaje: redes neuronales que simplemente predicen las siguientes palabras de una oración dadas las palabras anteriores de la oración.

Después de haber sido entrenados en una gran cantidad de texto sin etiquetar, los modelos lingüísticos pueden ser "invitados" a realizar tareas arbitrarias, como predecir la palabra que sigue a una oración. Por ejemplo, la tarea de traducir una oración del inglés al swahili podría reformularse como la predicción de la siguiente palabra: "La traducción del swahili de 'inteligencia artificial' es..."

De tareas específicas a tareas generales

Este nuevo paradigma representa un cambio de modelos tarea específica, entrenados para realizar una sola tarea, en modelos tarea general, que puede realizar diversas tareas. más los modelos tarea general también pueden realizar nuevas actividades que no se hayan incluido explícitamente en los datos de entrenamiento. Por ejemplo, GPT-3 mostró que los modelos lingüísticos pueden multiplicar con éxito números de dos dígitos, incluso si no han sido entrenados explícitamente para hacerlo. Sin embargo, esta capacidad de realizar nuevas tareas solo ocurrió con modelos con una cierta cantidad de parámetros y entrenados en un conjunto de datos suficientemente grande.

La emergencia como conducta

La idea de que los cambios cuantitativos en un sistema pueden conducir a un nuevo comportamiento se conoce como emergencia, un concepto popularizado por el ensayo de 1972 del premio Nobel Philip Anderson "Más es diferente". En muchas disciplinas como la física, la biología, la economía y la informática, el fenómeno emergente se ha observado en sistemas complejos.

En una artículo reciente publicado Transacciones en investigación de aprendizaje automático, el laboratorio HAI in Universidad de Stanford defiTermina las habilidades emergentes en grandes modelos de lenguaje de la siguiente manera:

una habilidad es emergente si no está presente en los modelos más pequeños pero está presente en los modelos más grandes.

Boletín de innovación
No te pierdas las noticias más importantes sobre innovación. Regístrese para recibirlos por correo electrónico.

Caracterizar la presencia de habilidades emergentes, nuestro artículo agregó los hallazgos de varios modelos y enfoques que surgieron en los últimos dos años desde el lanzamiento de GPT-3. El documento examinó la investigación que analizó la influencia de la escala: modelos de diferentes tamaños entrenados con diferentes recursos computacionales. Para muchas actividades, el comportamiento del modelo crece de forma predecible con la escala o aumenta de forma impredecible desde un rendimiento aleatorio hasta valores más altos que los aleatorios en un umbral de escala específico.

Para obtener más información, lea el artículo sobre habilidades emergentes en modelos lingüísticos

Jason Wei es científico investigador en Google Brain. Rishi Bommasani es un estudiante de doctorado de segundo año en el Departamento de Ciencias de la Computación de Stanford que ayudó a lanzar el Centro de Stanford para la Investigación de Modelos de Cimientos (CRFM)). Lea su estudio "Habilidades emergentes de Large Language Models,", escrito en colaboración con académicos de Google Research, la Universidad de Stanford, UNC Chapel Hill y DeepMind.

Redacción BlogInnovazione.it

Boletín de innovación
No te pierdas las noticias más importantes sobre innovación. Regístrese para recibirlos por correo electrónico.

Artículos recientes

Intervención innovadora en Realidad Aumentada, con visor de Apple en el Policlínico de Catania

En el Policlínico de Catania se realizó una operación de oftalmoplastia con el visor comercial Apple Vision Pro…

3 2024 mayo

Los beneficios de los dibujos para colorear para niños: un mundo de magia para todas las edades

El desarrollo de la motricidad fina mediante la coloración prepara a los niños para habilidades más complejas como la escritura. Colorear…

2 2024 mayo

El futuro está aquí: cómo la industria naviera está revolucionando la economía global

El sector naval es una auténtica potencia económica mundial, que ha navegado hacia un mercado de 150 mil millones...

1 2024 mayo

Editores y OpenAI firman acuerdos para regular el flujo de información procesada por la Inteligencia Artificial

El lunes pasado, el Financial Times anunció un acuerdo con OpenAI. FT otorga licencia para su periodismo de clase mundial...

Abril 30 2024