товары

Краткий анализ возникающих навыков в больших лингвистических моделях

Большая часть исследований искусственного интеллекта за последние два десятилетия была сосредоточена на обучении нейронных сетей для выполнения одной задачи с конкретными обучающими наборами данных. Например, классифицировать, есть ли на изображении кошка, резюмировать статью, перевести с английского на суахили...

В последние годы вокруг языковых моделей развилась новая парадигма: нейронные сети, которые просто предсказывают следующие слова в предложении на основе предыдущих слов в предложении.

После обучения на большом объеме неразмеченного текста лингвистические модели могут быть «приглашены» для выполнения произвольных задач, таких как предсказание слова, следующего за предложением. Например, задача перевода английского предложения на суахили может быть перефразирована как предсказание следующего слова: «Перевод слова «искусственный интеллект» на суахили…»

От конкретных задач к общим задачам

Эта новая парадигма представляет собой переход от моделей специфический для задачи, обученные выполнять одну задачу, в моделях генеральная задача, который может выполнять различные задачи. Плюс модели генеральная задача они также могут выполнять новые действия, которые не были явно включены в обучающие данные. Например, GPT-3 показали, что лингвистические модели могут успешно умножать двузначные числа, даже если они не были специально обучены этому. Однако эта способность выполнять новые задачи появилась только у моделей с определенным количеством параметров и обученных на достаточно большом наборе данных.

Чрезвычайная ситуация как поведение

Идея о том, что количественные изменения в системе могут привести к новому поведению, известна как аварийный, концепция, популяризированная лауреатом Нобелевской премии Филипом Андерсоном в 1972 году в эссе «Больше значит другое». Во многих дисциплинах, таких как физика, биология, экономика и информатика, возникающее явление наблюдалось в сложных системах.

В Недавняя статья опубликованный Транзакции по исследованиям в области машинного обучения, лаборатория HAI in Стэнфордский университет defiзавершает формирующиеся навыки в больших языковых моделях следующим образом:

Навык это выходящий если он отсутствует в младших моделях, но присутствует в более крупных моделях.

Характеризовать наличие навыков появление, наша статья обобщила выводы для различных моделей и подходов, появившихся за последние два года с момента выпуска GPT-3. В статье были рассмотрены исследования, в которых анализировалось влияние масштаба: модели разного размера обучались с использованием разных вычислительных ресурсов. Для многих действий поведение модели предсказуемо растет с масштабом или непредсказуемо увеличивается от случайной производительности до значений выше случайных при определенном пороге масштаба.

Чтобы узнать больше, прочитайте статью о новые навыки в лингвистических моделях

Джейсон Вей — научный сотрудник Google Brain. Риши Боммасани — второкурсник докторантуры факультета компьютерных наук Стэнфорда, который помог запустить Стэнфордский центр исследований моделей фундаментов (CRFM). Прочитайте их исследование Новые способности Large Language Models, , написанный в сотрудничестве с учеными из Google Research, Стэнфордского университета, UNC Chapel Hill и DeepMind.

Разработка BlogInnovazione.it