В останні роки навколо мовних моделей розвинулась нова парадигма: нейронні мережі, які просто передбачають наступні слова в реченні за попередніми словами в реченні.
Після навчання на великій частині тексту без міток лінгвістичні моделі можна «запросити» для виконання довільних завдань, таких як передбачення слова, яке слідує за реченням. Наприклад, завдання з перекладу англійського речення на суахілі можна було б перефразувати як передбачення наступного слова: «Переклад «штучного інтелекту» на суахілі є...»
Ця нова парадигма являє собою відхід від моделей конкретне завдання, навчені виконувати одноразове завдання, в моделях завдання-заг, який може виконувати різні завдання. Плюс моделі завдання-заг вони також можуть виконувати нові дії, які не були явно включені до навчальних даних. Наприклад, GPT-3 показали, що лінгвістичні моделі можуть успішно множити двозначні числа, навіть якщо вони не були спеціально навчені це робити. Однак ця здатність виконувати нові завдання виникла лише з моделями з певною кількістю параметрів і навченими на достатньо великому наборі даних.
Ідея про те, що кількісні зміни в системі можуть призвести до нової поведінки, відома як непередбачений, концепція, яку популяризував есе Нобелівського лауреата Філіпа Андерсона 1972 року «Більше означає інше». У багатьох дисциплінах, таких як фізика, біологія, економіка та інформатика, явище, що виникає, спостерігалося в складних системах.
В остання стаття Опубліковано Транзакції з дослідження машинного навчання, лаб ХАІ in Стенфордський університет defiзавершує нові навички у великих мовних моделях наступним чином:
Навик є виходить якщо він відсутній у менших моделях, але присутній у більших моделях.
Охарактеризувати наявність умінь що виникають, наша стаття узагальнила висновки щодо різних моделей і підходів, які з’явилися протягом останніх двох років після випуску GPT-3. У статті розглядалися дослідження, які аналізували вплив масштабу: моделі різних розмірів, навчені різними обчислювальними ресурсами. Для багатьох видів діяльності поведінка моделі передбачувано зростає з масштабом або непередбачувано збільшується від випадкової продуктивності до вищих за випадкові значення на певному пороговому значенні масштабу.
Щоб дізнатися більше, прочитайте статтю про нові навички роботи з лінгвістичними моделями
Джейсон Вей – науковий співробітник Google Brain. Ріші Боммасані — студент другого курсу Стенфордського факультету комп’ютерних наук, який допоміг запустити Стенфордський центр дослідження моделей фундаментів (CRFM). Прочитайте їх дослідження "Нові здібності Large Language Models,", написаний у співпраці з науковцями Google Research, Стенфордського університету, UNC Chapel Hill і DeepMind.
розробка BlogInnovazione.it
Reply оголошує про запуск MLFRAME Reply, нової генеративної структури штучного інтелекту для різнорідних баз знань. Розроблено…
Нагорода IMSA для молодих стартапів, які народилися в результаті досліджень в університетах та…
Премія Zayed Award for Sustainability — це всесвітня нагорода ОАЕ за сталий розвиток і гуманітарну відданість.…
Reply, глобальний консультант і системний інтегратор, а також постачальник хмарних керованих послуг Oracle, оголошує, що отримав…
MasterZ Blockchain підвищує цінність для найбільшого WEB 3.0 Master of excellence в Європі. Повністю італійська команда…
33 фіналісти, обрані з 5.213 заявок у 163 країнах. Фіналісти виступають за ефективні кліматичні заходи та підтримують доступ до чистої енергії,…
Біологічні препарати виникли як інноваційний фармацевтичний клас, який революціонізував галузь медицини завдяки таргетній терапії. ДО…
Інсорсинг принтерів для виробництва металів і полімерів на заводах у Ріомі, Франція та Рок-Хілл, Кароліна…
Аналіз даних без використання бібліотеки за допомогою машинного навчання за допомогою Spectronaut ® 18 забезпечує найкращі в галузі кількісне визначення білка та продуктивність…
Mattermost має розширену екосистему союзників з акцентом на нові варіанти використання рішень Міністерством оборони…