En los últimos años, ha evolucionado un nuevo paradigma en torno a los modelos de lenguaje: redes neuronales que simplemente predicen las siguientes palabras de una oración dadas las palabras anteriores de la oración.
Después de haber sido entrenados en una gran cantidad de texto sin etiquetar, los modelos lingüísticos pueden ser "invitados" a realizar tareas arbitrarias, como predecir la palabra que sigue a una oración. Por ejemplo, la tarea de traducir una oración del inglés al swahili podría reformularse como la predicción de la siguiente palabra: "La traducción del swahili de 'inteligencia artificial' es..."
Este nuevo paradigma representa un cambio de modelos tarea específica, entrenados para realizar una sola tarea, en modelos tarea general, que puede realizar diversas tareas. más los modelos tarea general también pueden realizar nuevas actividades que no se hayan incluido explícitamente en los datos de entrenamiento. Por ejemplo, GPT-3 mostró que los modelos lingüísticos pueden multiplicar con éxito números de dos dígitos, incluso si no han sido entrenados explícitamente para hacerlo. Sin embargo, esta capacidad de realizar nuevas tareas solo ocurrió con modelos con una cierta cantidad de parámetros y entrenados en un conjunto de datos suficientemente grande.
La idea de que los cambios cuantitativos en un sistema pueden conducir a un nuevo comportamiento se conoce como emergencia, un concepto popularizado por el ensayo de 1972 del premio Nobel Philip Anderson "Más es diferente". En muchas disciplinas como la física, la biología, la economía y la informática, el fenómeno emergente se ha observado en sistemas complejos.
En una artículo reciente publicado Transacciones en investigación de aprendizaje automático, el laboratorio HAI in Universidad de Stanford defiTermina las habilidades emergentes en grandes modelos de lenguaje de la siguiente manera:
una habilidad es emergente si no está presente en los modelos más pequeños pero está presente en los modelos más grandes.
Caracterizar la presencia de habilidades emergentes, nuestro artículo agregó los hallazgos de varios modelos y enfoques que surgieron en los últimos dos años desde el lanzamiento de GPT-3. El documento examinó la investigación que analizó la influencia de la escala: modelos de diferentes tamaños entrenados con diferentes recursos computacionales. Para muchas actividades, el comportamiento del modelo crece de forma predecible con la escala o aumenta de forma impredecible desde un rendimiento aleatorio hasta valores más altos que los aleatorios en un umbral de escala específico.
Para obtener más información, lea el artículo sobre habilidades emergentes en modelos lingüísticos
Jason Wei es científico investigador en Google Brain. Rishi Bommasani es un estudiante de doctorado de segundo año en el Departamento de Ciencias de la Computación de Stanford que ayudó a lanzar el Centro de Stanford para la Investigación de Modelos de Cimientos (CRFM)). Lea su estudio "Habilidades emergentes de Large Language Models,", escrito en colaboración con académicos de Google Research, la Universidad de Stanford, UNC Chapel Hill y DeepMind.
Redacción BlogInnovazione.it
En el Policlínico de Catania se realizó una operación de oftalmoplastia con el visor comercial Apple Vision Pro…
El desarrollo de la motricidad fina mediante la coloración prepara a los niños para habilidades más complejas como la escritura. Colorear…
El sector naval es una auténtica potencia económica mundial, que ha navegado hacia un mercado de 150 mil millones...
El lunes pasado, el Financial Times anunció un acuerdo con OpenAI. FT otorga licencia para su periodismo de clase mundial...