Статті

Короткий аналіз нових навичок у великих мовних моделях

Велика частина досліджень штучного інтелекту за останні два десятиліття була зосереджена на навчанні нейронних мереж для виконання одного завдання з конкретними навчальними наборами даних. Наприклад, класифікувати, якщо зображення містить кота, підсумувати статтю, перекласти з англійської на суахілі...

В останні роки навколо мовних моделей розвинулась нова парадигма: нейронні мережі, які просто передбачають наступні слова в реченні за попередніми словами в реченні.

Після навчання на великій частині тексту без міток лінгвістичні моделі можна «запросити» для виконання довільних завдань, таких як передбачення слова, яке слідує за реченням. Наприклад, завдання з перекладу англійського речення на суахілі можна було б перефразувати як передбачення наступного слова: «Переклад «штучного інтелекту» на суахілі є...»

Від конкретного завдання до загального

Ця нова парадигма являє собою відхід від моделей конкретне завдання, навчені виконувати одноразове завдання, в моделях завдання-заг, який може виконувати різні завдання. Плюс моделі завдання-заг вони також можуть виконувати нові дії, які не були явно включені до навчальних даних. Наприклад, GPT-3 показали, що лінгвістичні моделі можуть успішно множити двозначні числа, навіть якщо вони не були спеціально навчені це робити. Однак ця здатність виконувати нові завдання виникла лише з моделями з певною кількістю параметрів і навченими на достатньо великому наборі даних.

Надзвичайна ситуація як поведінка

Ідея про те, що кількісні зміни в системі можуть призвести до нової поведінки, відома як непередбачений, концепція, яку популяризував есе Нобелівського лауреата Філіпа Андерсона 1972 року «Більше означає інше». У багатьох дисциплінах, таких як фізика, біологія, економіка та інформатика, явище, що виникає, спостерігалося в складних системах.

В остання стаття Опубліковано Транзакції з дослідження машинного навчання, лаб ХАІ in Стенфордський університет defiзавершує нові навички у великих мовних моделях наступним чином:

Навик є виходить якщо він відсутній у менших моделях, але присутній у більших моделях.

Охарактеризувати наявність умінь що виникають, наша стаття узагальнила висновки щодо різних моделей і підходів, які з’явилися протягом останніх двох років після випуску GPT-3. У статті розглядалися дослідження, які аналізували вплив масштабу: моделі різних розмірів, навчені різними обчислювальними ресурсами. Для багатьох видів діяльності поведінка моделі передбачувано зростає з масштабом або непередбачувано збільшується від випадкової продуктивності до вищих за випадкові значення на певному пороговому значенні масштабу.

Щоб дізнатися більше, прочитайте статтю про нові навички роботи з лінгвістичними моделями

Джейсон Вей – науковий співробітник Google Brain. Ріші Боммасані — студент другого курсу Стенфордського факультету комп’ютерних наук, який допоміг запустити Стенфордський центр дослідження моделей фундаментів (CRFM). Прочитайте їх дослідження "Нові здібності Large Language Models,", написаний у співпраці з науковцями Google Research, Стенфордського університету, UNC Chapel Hill і DeepMind.

розробка BlogInnovazione.it

Ключові слова: штучний інтелектlarge language modelsLLMштучні нейронні мережі

4 жовтня 2022 р. 8:04

Після Японія просуває послуги WEB3 за допомогою Metaverse та NFT »

Precedente « Що таке сталий розвиток, одинадцята ціль порядку денного ООН до 2030 року: Сталі міста

Останні статті

Статті

Електронна комерція в Італії на +27% згідно з новим звітом Casaleggio Associati

Представлено щорічний звіт Casaleggio Associati про електронну комерцію в Італії. Доповідь під назвою «AI-Commerce: передові межі електронної комерції зі штучним інтелектом».…

Квітень 17 2024

Статті

Чудова ідея: Bandalux представляє Airpure®, завісу, яка очищає повітря

Результат постійних технологічних інновацій і відданості навколишньому середовищу та добробуту людей. Bandalux представляє Airpure®, намет…

Квітень 12 2024

Статті

Патерни проектування проти принципів SOLID, переваги та недоліки

Шаблони проектування — це конкретні низькорівневі рішення повторюваних проблем у розробці програмного забезпечення. Патерни дизайну – це…

Квітень 11 2024

Comunicati Stampa

Magica, додаток для iOS, який спрощує життя автомобілістів у керуванні автомобілем

Magica — це програма для iPhone, яка робить керування автомобілем простим і ефективним, допомагаючи водіям економити та...

Квітень 11 2024

Короткий аналіз нових навичок у великих мовних моделях

Від конкретного завдання до загального

Надзвичайна ситуація як поведінка

Останні статті

Електронна комерція в Італії на +27% згідно з новим звітом Casaleggio Associati

Чудова ідея: Bandalux представляє Airpure®, завісу, яка очищає повітря

Патерни проектування проти принципів SOLID, переваги та недоліки

Magica, додаток для iOS, який спрощує життя автомобілістів у керуванні автомобілем

Останні статті

Тег