一個由數十億甚至數十億參數組成的神經網絡需要數千萬歐元的資源。
憑藉如此巨大的成本,能夠建立和訓練一個偉大的人工智能模型的唯一參與者是跨國公司。
有了這些特點,人工智能研究的成本就構成了進入壁壘。
在過去的幾年裡,我們目睹了更小、更簡單的模型的激增,但與大型 LLM 語言模型相去甚遠。
近年來,我們看到了轉機。 例如,Meta 發布的 OPT-175B(Open Pretrained Transformer),一種使用公共數據集訓練的語言模型,並以“準”開放模式提供給研究人員。
但此刻的消息是 BigScience 發布了 BLOOM LM。
BLOOM 是一個開放訪問的多語言語言模型,包含 176 億個參數,並已在 3,5 個 A384–100 GB GPU 上訓練了 80 個月。
一個 BLOOM 檢查點佔用 330GB 的磁盤空間,因此在台式計算機上運行這個模型似乎是不可能的。
但是,您只需要足夠的磁盤空間和至少 16GB 的 RAM 即可在您的計算機上運行此模型。
BLOOM 是 1.000 多名科學家的共同努力。
如此廣泛的多語言模型對所有人開放是很重要的。
BLOOM 是一種因果模型語言,這意味著它已被訓練為下一個標記的預測器。
這種基於一組先前標記來預測句子中下一個標記的看似簡單的策略已被證明可以為大型語言模型捕獲一定程度的推理能力。
這使得 BLOOM 和類似模型能夠在一個句子中連接多個概念,並能夠以相當準確的方式解決算術、翻譯和編程等重要問題。
BLOOM 使用由一個輸入嵌入層、70 個 Transformer 塊和一個輸出語言建模層組成的 Transformer 架構,如下圖所示。
文章摘自 Luca Sambucci, 如果你想閱讀新聞.AI