bienes

Breve análisis de las habilidades emergentes en grandes modelos lingüísticos

Gran parte de la investigación sobre inteligencia artificial en las últimas dos décadas se ha centrado en entrenar redes neuronales para realizar una sola tarea con conjuntos de datos de entrenamiento específicos. Por ejemplo, clasificar si una imagen contiene un gato, resumir un artículo, traducir del inglés al swahili…

En los últimos años, ha evolucionado un nuevo paradigma en torno a los modelos de lenguaje: redes neuronales que simplemente predicen las siguientes palabras de una oración dadas las palabras anteriores de la oración.

Después de haber sido entrenados en una gran cantidad de texto sin etiquetar, los modelos lingüísticos pueden ser "invitados" a realizar tareas arbitrarias, como predecir la palabra que sigue a una oración. Por ejemplo, la tarea de traducir una oración del inglés al swahili podría reformularse como la predicción de la siguiente palabra: "La traducción del swahili de 'inteligencia artificial' es..."

De tareas específicas a tareas generales

Este nuevo paradigma representa un cambio de modelos tarea específica, entrenados para realizar una sola tarea, en modelos tarea general, que puede realizar diversas tareas. más los modelos tarea general también pueden realizar nuevas actividades que no se hayan incluido explícitamente en los datos de entrenamiento. Por ejemplo, GPT-3 mostró que los modelos lingüísticos pueden multiplicar con éxito números de dos dígitos, incluso si no han sido entrenados explícitamente para hacerlo. Sin embargo, esta capacidad de realizar nuevas tareas solo ocurrió con modelos con una cierta cantidad de parámetros y entrenados en un conjunto de datos suficientemente grande.

La emergencia como conducta

La idea de que los cambios cuantitativos en un sistema pueden conducir a un nuevo comportamiento se conoce como emergencia, un concepto popularizado por el ensayo de 1972 del premio Nobel Philip Anderson "Más es diferente". En muchas disciplinas como la física, la biología, la economía y la informática, el fenómeno emergente se ha observado en sistemas complejos.

En una artículo reciente publicado Transacciones en investigación de aprendizaje automático, el laboratorio HAI in Universidad de Stanford defiTermina las habilidades emergentes en grandes modelos de lenguaje de la siguiente manera:

una habilidad es emergente si no está presente en los modelos más pequeños pero está presente en los modelos más grandes.

Caracterizar la presencia de habilidades emergentes, nuestro artículo agregó los hallazgos de varios modelos y enfoques que surgieron en los últimos dos años desde el lanzamiento de GPT-3. El documento examinó la investigación que analizó la influencia de la escala: modelos de diferentes tamaños entrenados con diferentes recursos computacionales. Para muchas actividades, el comportamiento del modelo crece de forma predecible con la escala o aumenta de forma impredecible desde un rendimiento aleatorio hasta valores más altos que los aleatorios en un umbral de escala específico.

Para obtener más información, lea el artículo sobre habilidades emergentes en modelos lingüísticos

Jason Wei es científico investigador en Google Brain. Rishi Bommasani es un estudiante de doctorado de segundo año en el Departamento de Ciencias de la Computación de Stanford que ayudó a lanzar el Centro de Stanford para la Investigación de Modelos de Cimientos (CRFM)). Lea su estudio "Habilidades emergentes de Large Language Models,", escrito en colaboración con académicos de Google Research, la Universidad de Stanford, UNC Chapel Hill y DeepMind.

Redacción BlogInnovazione.it