近年來,圍繞語言模型發展了一種新的範式:神經網絡根據句子中的前一個詞簡單地預測句子中的下一個詞。
在對大量未標記文本進行訓練後,可以“邀請”語言模型執行任意任務,例如預測句子後面的單詞。 例如,將英語句子翻譯成斯瓦希里語的任務可以改寫為預測下一個單詞:“‘人工智能’的斯瓦希里語翻譯是……”
這種新範式代表了模型的轉變 特定任務, 在模型中訓練執行單個任務 任務一般,它可以執行各種任務。 加上模型 任務一般 他們還可以執行尚未明確包含在訓練數據中的新活動。 例如, GPT-3 表明語言模型可以成功地將兩位數相乘,即使它們沒有經過明確的訓練。 然而,這種執行新任務的能力只發生在具有一定數量參數並在足夠大的數據集上訓練的模型中。
系統中的數量變化可以導致新行為的想法被稱為 急,由諾貝爾獎獲得者菲利普·安德森 1972 年的論文《More is different》推廣的概念。 在物理學、生物學、經濟學和計算機科學等許多學科中,已經在復雜系統中觀察到了這種新興現象。
在一個 最近的文章 發表於 機器學習研究彙刊, 實驗室 海 in 斯坦福大學 defi完成大型語言模型中的新興技能如下:
一個技能是 應急 如果它不存在於較小的模型中但存在於較大的模型中。
表徵技能的存在 新興,我們的文章匯總了自 GPT-3 發布以來過去兩年出現的各種模型和方法的發現。 該論文研究了分析規模影響的研究:使用不同計算資源訓練的不同大小的模型。 對於許多活動,模型的行為隨規模可預測地增長或從隨機性能不可預測地增加至高於特定規模閾值的隨機值。
要了解更多信息,請閱讀文章 語言模型中的新興技能
Jason Wei 是 Google Brain 的研究科學家。 Rishi Bommasani 是斯坦福大學計算機科學系的二年級博士生,他幫助推出了 斯坦福基礎模型研究中心 (CRFM)). 閱讀他們的研究 “新興能力 Large Language Models,“,與 Google Research、斯坦福大學、UNC 教堂山分校和 DeepMind 的學者合作編寫。
起草 BlogInnovazione.it