BLOOM: la rivoluzione open nell’intelligenza artificiale
Gli attuali grandi modelli di intelligenza artificiale hanno bisogno di enormi risorse computazionali per essere addestrati.
Una rete neurale composta da miliardi o anche bilioni di parametri richiede risorse per decine di milioni di Euro.
Con costi così imponenti, gli unici attori in grado di realizzare e addestrare un grande modello di intelligenza artificiale sono le multinazionali.
Costo della ricerca AI come barriera di entrata
Con queste caratteristiche, il costo della ricerca in AI costituisce una barriera di entrata.
Nel corso degli ultimi anni abbiamo assistito alla proliferazione di modelli più piccoli e meno complessi, comunque lontani dai grandi modelli linguistici LLM.
BLOOM e la rivoluzione open
Negli ultimi anni abbiamo assistito a un’inversione di tendenza. Ad esempio, il rilascio da parte di Meta di OPT-175B (Open Pretrained Transformer), un modello linguistico addestrato con dataset pubblici e messo a disposizione dei ricercatori in modalità “quasi” open.
Ma la notizia del momento è il rilascio di BLOOM LM da parte di BigScience.
BLOOM è un modello linguistico multilingue ad accesso aperto che contiene 176 miliardi di parametri ed è stato addestrato per 3,5 mesi su 384 GPU A100–80 GB.
Un checkpoint BLOOM occupa 330 GB di spazio su disco, quindi sembra impossibile eseguire questo modello su un computer desktop.
Tuttavia, hai solo bisogno di spazio su disco sufficiente, e almeno 16 GB di RAM per eseguire questo modello sul tuo computer.
BLOOM è uno sforzo collaborativo di oltre 1.000 scienziati.
È importante che un modello multilingue così ampio sia apertamente disponibile per tutti.
Architettura BLOOM
BLOOM è un linguaggio modello causale, il che significa che è stato addestrato come predittore del token successivo.
Questa strategia apparentemente semplice di predire il token successivo in una frase, basata su un insieme di token precedenti, ha dimostrato di catturare un certo grado di capacità di ragionamento per modelli linguistici di grandi dimensioni.
Ciò consente a BLOOM e modelli simili di collegare più concetti in una frase e di riuscire a risolvere problemi non banali come aritmetica, traduzione e programmazione con discreta precisione.
BLOOM utilizza un’architettura Transformer composta da un livello di incorporamento di input, 70 blocchi Transformer e un livello di modellazione del linguaggio di output, come mostrato nella figura seguente.
Articolo estratto dal Post di Luca Sambucci, se vuoi leggere l’Notizie.AI