Короткий аналіз нових навичок у великих мовних моделях
Велика частина досліджень штучного інтелекту за останні два десятиліття була зосереджена на навчанні нейронних мереж для виконання одного завдання з конкретними навчальними наборами даних. Наприклад, класифікувати, якщо зображення містить кота, підсумувати статтю, перекласти з англійської на суахілі...
В останні роки навколо мовних моделей розвинулась нова парадигма: нейронні мережі, які просто передбачають наступні слова в реченні за попередніми словами в реченні.
Після навчання на великій частині тексту без міток лінгвістичні моделі можна «запросити» для виконання довільних завдань, таких як передбачення слова, яке слідує за реченням. Наприклад, завдання з перекладу англійського речення на суахілі можна було б перефразувати як передбачення наступного слова: «Переклад «штучного інтелекту» на суахілі є...»
Від конкретного завдання до загального
Ця нова парадигма являє собою відхід від моделей конкретне завдання, навчені виконувати одноразове завдання, в моделях завдання-заг, який може виконувати різні завдання. Плюс моделі завдання-заг вони також можуть виконувати нові дії, які не були явно включені до навчальних даних. Наприклад, GPT-3 показали, що лінгвістичні моделі можуть успішно множити двозначні числа, навіть якщо вони не були спеціально навчені це робити. Однак ця здатність виконувати нові завдання виникла лише з моделями з певною кількістю параметрів і навченими на достатньо великому наборі даних.
Надзвичайна ситуація як поведінка
Ідея про те, що кількісні зміни в системі можуть призвести до нової поведінки, відома як непередбачений, концепція, яку популяризував есе Нобелівського лауреата Філіпа Андерсона 1972 року «Більше означає інше». У багатьох дисциплінах, таких як фізика, біологія, економіка та інформатика, явище, що виникає, спостерігалося в складних системах.
В остання стаття Опубліковано Транзакції з дослідження машинного навчання, лаб ХАІ in Стенфордський університет defiзавершує нові навички у великих мовних моделях наступним чином:
Навик є виходить якщо він відсутній у менших моделях, але присутній у більших моделях.
Охарактеризувати наявність умінь що виникають, наша стаття узагальнила висновки щодо різних моделей і підходів, які з’явилися протягом останніх двох років після випуску GPT-3. У статті розглядалися дослідження, які аналізували вплив масштабу: моделі різних розмірів, навчені різними обчислювальними ресурсами. Для багатьох видів діяльності поведінка моделі передбачувано зростає з масштабом або непередбачувано збільшується від випадкової продуктивності до вищих за випадкові значення на певному пороговому значенні масштабу.
Щоб дізнатися більше, прочитайте статтю про нові навички роботи з лінгвістичними моделями
Джейсон Вей – науковий співробітник Google Brain. Ріші Боммасані — студент другого курсу Стенфордського факультету комп’ютерних наук, який допоміг запустити Стенфордський центр дослідження моделей фундаментів (CRFM). Прочитайте їх дослідження "Нові здібності Large Language Models,", написаний у співпраці з науковцями Google Research, Стенфордського університету, UNC Chapel Hill і DeepMind.
розробка BlogInnovazione.it