Una red neuronal formada por miles de millones o incluso miles de millones de parámetros requiere recursos de decenas de millones de euros.
Con costos tan enormes, los únicos actores capaces de construir y entrenar un gran modelo de inteligencia artificial son las multinacionales.
Con estas características, el coste de la investigación en IA constituye una barrera de entrada.
En los últimos años hemos asistido a la proliferación de modelos más pequeños y menos complejos, pero alejados de los grandes modelos lingüísticos LLM.
En los últimos años hemos visto un cambio. Por ejemplo, el lanzamiento de Meta de OPT-175B (Transformador preentrenado abierto), un modelo de lenguaje entrenado con conjuntos de datos públicos y puesto a disposición de los investigadores en modo abierto "cuasi".
Pero la noticia del momento es el lanzamiento de BLOOM LM por parte de BigScience.
BLOOM es un modelo de idioma multilingüe de acceso abierto que contiene 176 3,5 millones de parámetros y ha sido entrenado durante 384 meses en 100 GPU A80–XNUMX GB.
Un punto de control BLOOM ocupa 330 GB de espacio en disco, por lo que parece imposible ejecutar este modelo en una computadora de escritorio.
Sin embargo, solo necesita suficiente espacio en disco y al menos 16 GB de RAM para ejecutar este modelo en su computadora.
BLOOM es un esfuerzo de colaboración de más de 1.000 científicos.
Es importante que un modelo multilingüe tan amplio esté abiertamente disponible para todos.
BLOOM es un lenguaje modelo causal, lo que significa que ha sido entrenado para predecir el siguiente token.
Se ha demostrado que esta estrategia aparentemente simple de predecir el siguiente token en una oración, basada en un conjunto de tokens anteriores, captura un cierto grado de poder de razonamiento para modelos de lenguaje grandes.
Esto permite que BLOOM y modelos similares conecten múltiples conceptos en una oración y puedan resolver problemas no triviales como aritmética, traducción y programación con bastante precisión.
BLOOM utiliza una arquitectura Transformer que consta de una capa de incrustación de entrada, 70 bloques Transformer y una capa de modelado de lenguaje de salida, como se muestra en la siguiente figura.
Artículo extraído del Post de Luca Sambucci, si quieres leer elNoticias.AI
Cualquier operación empresarial produce una gran cantidad de datos, incluso en diferentes formas. Ingrese manualmente estos datos desde una hoja de Excel para...
El compromiso de los correos electrónicos de las empresas aumentó más del doble en los primeros tres meses de 2024 en comparación con el último trimestre de…
El principio de segregación de interfaces es uno de los cinco principios SÓLIDOS del diseño orientado a objetos. Una clase debería tener...
Microsoft Excel es la herramienta de referencia para el análisis de datos, porque ofrece muchas funciones para organizar conjuntos de datos,…
Walliance, SIM y plataforma líder en Europa en el campo del Crowdfunding Inmobiliario desde 2017, anuncia la finalización…
Filament es un marco de desarrollo "acelerado" de Laravel que proporciona varios componentes completos. Está diseñado para simplificar el proceso de...
«Debo volver para completar mi evolución: me proyectaré dentro del ordenador y me convertiré en energía pura. Una vez instalado…
Google DeepMind presenta una versión mejorada de su modelo de inteligencia artificial. El nuevo modelo mejorado proporciona no sólo...