Kunstig intelligens

BLOOM: den åpne revolusjonen innen kunstig intelligens

Dagens store AI-modeller trenger enorme beregningsressurser for å trene.

Et nevralt nettverk som består av milliarder eller til og med milliarder av parametere krever ressurser i titalls millioner euro.
Med slike enorme kostnader er de eneste aktørene som er i stand til å bygge og trene en flott modell for kunstig intelligens de multinasjonale selskapene.

Kostnader for AI-forskning som en adgangsbarriere

Med disse egenskapene utgjør kostnadene ved AI-forskning en inngangsbarriere.
I løpet av de siste årene har vi vært vitne til spredningen av mindre og mindre komplekse modeller, men langt unna de store LLM-språklige modellene.

BLOOM og den åpne revolusjonen

De siste årene har vi sett en snuoperasjon. For eksempel Metas utgivelse av OPT-175B (Open Pretrained Transformer), en språkmodell trent med offentlige datasett og gjort tilgjengelig for forskere i «quasi» åpen modus.
Men øyeblikkets nyhet er utgivelsen av BLOOM LM av BigScience.

BLOOM er en flerspråklig språkmodell med åpen tilgang som inneholder 176 milliarder parametere og har blitt trent i 3,5 måneder på 384 A100–80 GB GPUer.
Et BLOOM-sjekkpunkt tar opp 330 GB diskplass, så det virker umulig å kjøre denne modellen på en stasjonær datamaskin.
Du trenger imidlertid bare nok diskplass og minst 16 GB RAM for å kjøre denne modellen på datamaskinen.

BLOOM er et samarbeid mellom over 1.000 forskere.
Det er viktig at en så bred flerspråklig modell er åpent tilgjengelig for alle.

BLOOM arkitektur

BLOOM er et kausalt modellspråk, noe som betyr at det har blitt trent opp som en prediktor for neste token.
Denne tilsynelatende enkle strategien for å forutsi neste token i en setning, basert på et sett med tidligere tokens, har vist seg å fange en viss grad av resonnementkraft for store språkmodeller.
Dette gjør at BLOOM og lignende modeller kan koble sammen flere konsepter i en setning og å kunne løse ikke-trivielle problemer som aritmetikk, oversettelse og programmering med rimelig nøyaktighet.
BLOOM bruker en transformatorarkitektur som består av et input-innebyggingslag, 70 transformatorblokker og et utgangsspråkmodelleringslag, som vist i følgende figur.

Artikkel hentet fra Post of Luca Sambucci, hvis du vil leseNews.AI