Inteligencia artificial

BLOOM: la revolución abierta en inteligencia artificial

Los grandes modelos de IA actuales necesitan enormes recursos computacionales para entrenarse.

Una red neuronal formada por miles de millones o incluso miles de millones de parámetros requiere recursos de decenas de millones de euros.
Con costos tan enormes, los únicos actores capaces de construir y entrenar un gran modelo de inteligencia artificial son las multinacionales.

El costo de la investigación en IA como barrera de entrada

Con estas características, el coste de la investigación en IA constituye una barrera de entrada.
En los últimos años hemos asistido a la proliferación de modelos más pequeños y menos complejos, pero alejados de los grandes modelos lingüísticos LLM.

BLOOM y la revolución abierta

En los últimos años hemos visto un cambio. Por ejemplo, el lanzamiento de Meta de OPT-175B (Transformador preentrenado abierto), un modelo de lenguaje entrenado con conjuntos de datos públicos y puesto a disposición de los investigadores en modo abierto "cuasi".
Pero la noticia del momento es el lanzamiento de BLOOM LM por parte de BigScience.

BLOOM es un modelo de idioma multilingüe de acceso abierto que contiene 176 3,5 millones de parámetros y ha sido entrenado durante 384 meses en 100 GPU A80–XNUMX GB.
Un punto de control BLOOM ocupa 330 GB de espacio en disco, por lo que parece imposible ejecutar este modelo en una computadora de escritorio.
Sin embargo, solo necesita suficiente espacio en disco y al menos 16 GB de RAM para ejecutar este modelo en su computadora.

Boletín de innovación
No te pierdas las noticias más importantes sobre innovación. Regístrese para recibirlos por correo electrónico.

BLOOM es un esfuerzo de colaboración de más de 1.000 científicos.
Es importante que un modelo multilingüe tan amplio esté abiertamente disponible para todos.

arquitectura BLOOM

BLOOM es un lenguaje modelo causal, lo que significa que ha sido entrenado para predecir el siguiente token.
Se ha demostrado que esta estrategia aparentemente simple de predecir el siguiente token en una oración, basada en un conjunto de tokens anteriores, captura un cierto grado de poder de razonamiento para modelos de lenguaje grandes.
Esto permite que BLOOM y modelos similares conecten múltiples conceptos en una oración y puedan resolver problemas no triviales como aritmética, traducción y programación con bastante precisión.
BLOOM utiliza una arquitectura Transformer que consta de una capa de incrustación de entrada, 70 bloques Transformer y una capa de modelado de lenguaje de salida, como se muestra en la siguiente figura.

Artículo extraído del Post de Luca Sambucci, si quieres leer elNoticias.AI

Boletín de innovación
No te pierdas las noticias más importantes sobre innovación. Regístrese para recibirlos por correo electrónico.

Artículos recientes

Cómo consolidar datos en Excel

Cualquier operación empresarial produce una gran cantidad de datos, incluso en diferentes formas. Ingrese manualmente estos datos desde una hoja de Excel para...

14 2024 mayo

Análisis trimestral de Cisco Talos: los correos electrónicos corporativos dirigidos por delincuentes Fabricación, educación y atención sanitaria son los sectores más afectados

El compromiso de los correos electrónicos de las empresas aumentó más del doble en los primeros tres meses de 2024 en comparación con el último trimestre de…

14 2024 mayo

Principio de segregación de interfaces (ISP), cuarto principio SÓLIDO

El principio de segregación de interfaces es uno de los cinco principios SÓLIDOS del diseño orientado a objetos. Una clase debería tener...

14 2024 mayo

Cómo organizar mejor los datos y las fórmulas en Excel para un análisis bien hecho

Microsoft Excel es la herramienta de referencia para el análisis de datos, porque ofrece muchas funciones para organizar conjuntos de datos,…

14 2024 mayo

Conclusión positiva para dos importantes proyectos de Walliance Equity Crowdfunding: Jesolo Wave Island y Milano Via Ravenna

Walliance, SIM y plataforma líder en Europa en el campo del Crowdfunding Inmobiliario desde 2017, anuncia la finalización…

13 2024 mayo

¿Qué es el filamento y cómo utilizar el filamento Laravel?

Filament es un marco de desarrollo "acelerado" de Laravel que proporciona varios componentes completos. Está diseñado para simplificar el proceso de...

13 2024 mayo

Bajo el control de las Inteligencias Artificiales

«Debo volver para completar mi evolución: me proyectaré dentro del ordenador y me convertiré en energía pura. Una vez instalado…

10 2024 mayo

La nueva inteligencia artificial de Google puede modelar ADN, ARN y "todas las moléculas de la vida"

Google DeepMind presenta una versión mejorada de su modelo de inteligencia artificial. El nuevo modelo mejorado proporciona no sólo...

9 2024 mayo

Lee Innovación en tu idioma

Boletín de innovación
No te pierdas las noticias más importantes sobre innovación. Regístrese para recibirlos por correo electrónico.

Síguenos