用品

大型語言模型中新興技能的簡要分析

在過去的二十年中，人工智能的大部分研究都集中在訓練神經網絡上，以使用特定的訓練數據集執行單一任務。例如，分類圖像是否包含貓，總結一篇文章，從英語翻譯成斯瓦希里語......

近年來，圍繞語言模型發展了一種新的範式：神經網絡根據句子中的前一個詞簡單地預測句子中的下一個詞。

在對大量未標記文本進行訓練後，可以“邀請”語言模型執行任意任務，例如預測句子後面的單詞。例如，將英語句子翻譯成斯瓦希里語的任務可以改寫為預測下一個單詞：“‘人工智能’的斯瓦希里語翻譯是……”

從特定任務到一般任務

這種新範式代表了模型的轉變 特定任務, 在模型中訓練執行單個任務 任務一般，它可以執行各種任務。加上模型 任務一般 他們還可以執行尚未明確包含在訓練數據中的新活動。例如， GPT-3 表明語言模型可以成功地將兩位數相乘，即使它們沒有經過明確的訓練。然而，這種執行新任務的能力只發生在具有一定數量參數並在足夠大的數據集上訓練的模型中。

緊急作為一種行為

系統中的數量變化可以導致新行為的想法被稱為急，由諾貝爾獎獲得者菲利普·安德森 1972 年的論文《More is different》推廣的概念。在物理學、生物學、經濟學和計算機科學等許多學科中，已經在復雜系統中觀察到了這種新興現象。

在一個最近的文章發表於 機器學習研究彙刊，實驗室海 in 斯坦福大學 defi完成大型語言模型中的新興技能如下：

一個技能是應急如果它不存在於較小的模型中但存在於較大的模型中。

表徵技能的存在新興，我們的文章匯總了自 GPT-3 發布以來過去兩年出現的各種模型和方法的發現。該論文研究了分析規模影響的研究：使用不同計算資源訓練的不同大小的模型。對於許多活動，模型的行為隨規模可預測地增長或從隨機性能不可預測地增加至高於特定規模閾值的隨機值。

要了解更多信息，請閱讀文章語言模型中的新興技能

Jason Wei 是 Google Brain 的研究科學家。 Rishi Bommasani 是斯坦福大學計算機科學系的二年級博士生，他幫助推出了 斯坦福基礎模型研究中心 (CRFM)). 閱讀他們的研究 “新興能力 Large Language Models,“，與 Google Research、斯坦福大學、UNC 教堂山分校和 DeepMind 的學者合作編寫。

起草 BlogInnovazione.it

標籤：人工智能large language modelsLLM人工神經網絡

4 年 2022 月 8 日晚上 04:XNUMX

後日本利用 Metaverse 和 NFT 推廣 WEB3 服務 »

Precedente « 什麼是永續性，聯合國 2030 年議程第十一個目標：永續城市

Veeam 為勒索軟體提供最全面的支持，從保護到回應和恢復

Veeam 的 Coveware 將繼續提供網路勒索事件回應服務。 Coveware 將提供取證和修復功能…

23月2024

用品

綠色與數位革命：預測性維護如何改變石油和天然氣產業

預測性維護正在透過創新和主動的工廠管理方法徹底改變石油和天然氣行業。

22月2024

用品

英國反壟斷監管機構對 GenAI 向 BigTech 發出警報

英國 CMA 對大型科技公司在人工智慧市場的行為發出了警告。那裡…

18月2024

新聞發布

Casa Green：義大利永續未來的能源革命

歐盟為提高建築物能源效率而製定的「綠色案例」法令已結束立法程序…