Large Language Model

machine learning

Un modello linguistico di grandi dimensioni (LLM) è un modello linguistico caratterizzato dalle sue grandi dimensioni. La loro dimensione è resa possibile dagli acceleratori di intelligenza artificiale, che sono in grado di elaborare grandi quantità di dati di testo, per lo più recuperati da Internet. Le reti neurali artificiali costruite possono contenere da decine di milioni fino a miliardi di pesi e sono (pre)addestrate utilizzando l’apprendimento autosupervisionato e l’apprendimento semi-supervisionato. L’architettura del trasformatore ha contribuito a una formazione più rapida. Le architetture alternative includono la miscela di esperti (MoE), che è stata proposta da Google, a partire da quelle scarsamente gate nel 2017, Gshard nel 2021 fino a GLaM nel 2022.

Come modelli linguistici, funzionano prendendo un testo di input e prevedendo ripetutamente il token o la parola successiva. Fino al 2020, la messa a punto era l’unico modo in cui un modello poteva essere adattato per poter svolgere compiti specifici. I modelli di dimensioni più grandi, come GPT-3, tuttavia, possono essere progettati tempestivamente per ottenere risultati simili. Si pensa che acquisiscano conoscenze incarnate sulla sintassi, la semantica e l'”ontologia” inerenti ai corpora del linguaggio umano, ma anche le imprecisioni e i pregiudizi presenti nei corpora.

Esempi degni di nota includono i modelli GPT di OpenAI (ad esempio, GPT-3.5 e GPT-4, utilizzati in ChatGPT), PaLM di Google (utilizzato in Bard) e LLaMa di Meta, nonché BLOOM, Ernie 3.0 Titan e Claude.

Fonte Wikipedia