Una rete neurale composta da miliardi o anche bilioni di parametri richiede risorse per decine di milioni di Euro.
Con costi così imponenti, gli unici attori in grado di realizzare e addestrare un grande modello di intelligenza artificiale sono le multinazionali.
Con queste caratteristiche, il costo della ricerca in AI costituisce una barriera di entrata.
Nel corso degli ultimi anni abbiamo assistito alla proliferazione di modelli più piccoli e meno complessi, comunque lontani dai grandi modelli linguistici LLM.
Negli ultimi anni abbiamo assistito a un’inversione di tendenza. Ad esempio, il rilascio da parte di Meta di OPT-175B (Open Pretrained Transformer), un modello linguistico addestrato con dataset pubblici e messo a disposizione dei ricercatori in modalità “quasi” open.
Ma la notizia del momento è il rilascio di BLOOM LM da parte di BigScience.
BLOOM è un modello linguistico multilingue ad accesso aperto che contiene 176 miliardi di parametri ed è stato addestrato per 3,5 mesi su 384 GPU A100–80 GB.
Un checkpoint BLOOM occupa 330 GB di spazio su disco, quindi sembra impossibile eseguire questo modello su un computer desktop.
Tuttavia, hai solo bisogno di spazio su disco sufficiente, e almeno 16 GB di RAM per eseguire questo modello sul tuo computer.
BLOOM è uno sforzo collaborativo di oltre 1.000 scienziati.
È importante che un modello multilingue così ampio sia apertamente disponibile per tutti.
BLOOM è un linguaggio modello causale, il che significa che è stato addestrato come predittore del token successivo.
Questa strategia apparentemente semplice di predire il token successivo in una frase, basata su un insieme di token precedenti, ha dimostrato di catturare un certo grado di capacità di ragionamento per modelli linguistici di grandi dimensioni.
Ciò consente a BLOOM e modelli simili di collegare più concetti in una frase e di riuscire a risolvere problemi non banali come aritmetica, traduzione e programmazione con discreta precisione.
BLOOM utilizza un’architettura Transformer composta da un livello di incorporamento di input, 70 blocchi Transformer e un livello di modellazione del linguaggio di output, come mostrato nella figura seguente.
Articolo estratto dal Post di Luca Sambucci, se vuoi leggere l’Notizie.AI
Nasce l’Osservatorio del Nordest sull’economia dell’Innovazione Nim, (Numbers Innovation Motion) è un progetto di Galileo Visionary District realizzato in collaborazione…
ASKtoAI lancia le innovative funzionalità Memory e Personality, strumenti d'avanguardia per la creazione di contenuti digitali che promettono di migliorare…
Discuss , la piattaforma leader appositamente creata per trasformare le esperienze in insight, ha potenziato le sue capacità di scalare la…
Con le festività che si avvicinano rapidamente, Blue Lake Packaging è entusiasta di offrire un'alternativa ecologica al nastro da imballaggio…
Netlogistik , leader in potenti servizi che guidano le aziende verso la trasformazione digitale della catena di fornitura, ha recentemente tenuto…
Annuncia una soluzione integrata che combina FPGA di Lattice a bassa potenza e bassa latenza con la piattaforma NVIDIA Orin…
Con un successo clamoroso, il Textile Export Promotion Project (TEPP), guidato dalla Taiwan Textile Federation nel 2023, ha messo in…
Lattice presenta i nuovi FPGA mid-range Lattice Avant-G e Lattice Avant-X, stack di soluzioni specifiche per le applicazioni ampliate e…
Innovazione per i professionisti della gestione della conoscenza e dell'innovazione (KM&I). Nel settore legale è ora disponibile un riferimento completo…
La Eclipse Foundation , una delle più grandi fondazioni di software open source al mondo, ha annunciato oggi la formazione dell'Eclipse…