Gato, DeepMind і гонка до загального штучного інтелекту

Gato — це нова мультимодальна система штучного інтелекту від DeepMind, здатна виконувати сотні різних завдань, завжди використовуючи ту саму нейронну мережу.

Є ті, хто вважає, що шлях до штучний інтелект людського рівня наразі визначено, тепер мова йде лише про збільшення обчислювальних ресурсів, тоді як інші сповільнюються, оскільки багато вимог все ще будуть відсутні. Однак надзвичайна здатність керувати дуже різними завданнями робить Gato системою штучного інтелекту відмінною від інших, яка, з одного боку, ще не є загальним штучним інтелектом, якого всі очікують, з іншого боку, це все ще інноваційна система для того, як вона якому вдається обробляти дуже різні дані з однієї архітектури deep learning.

Закритий ШІ та загальний ШІ

Дотепер однією з головних відмінностей у складному світі штучного інтелекту була різниця між слабким ШІ, який також називають «вузьким» ШІ, та сильним ШІ, який також називають «загальним» ШІ. Це був досить простий спосіб негайно вирішити питання про мислячі машини. Вузький штучний інтелект — це вид штучного інтелекту, який виконує лише одне завдання, наприклад планування маршруту, надання відповідних результатів пошуку або письмову розмову. З іншого боку, загальний штучний інтелект — це штучний інтелект, який ми бачимо у фільмах, який мислить як людина, виконує багато завдань одночасно, створюючи корисну синергію між ними. Абревіатура цих людиноподібних машин — AGI, Штучний загальний інтелект. Для більшості дослідників це химера, яка теоретично можлива, але до якої ми не дійдемо найближчим часом.

Однак ця відмінність сьогодні скрипить і стає дедалі гірше пояснити. Фактично, в останні роки дослідження підштовхнули до створення все більш загальних моделей штучного інтелекту, однак не призвівши до відкриття AGI. Тому воно створює своєрідна золота середина, де ми знаходимо моделі штучного інтелекту, які здатні виконувати численні завдання різного характеру настільки, що їх уже не можна описати як «вузький» штучний інтелект, але які в той же час не виявляють того причинного інтелекту чи усвідомлення того, що для багато експертів повинні бути притаманні AGI.

Мультимодальний ШІ

Ми можемо назвати цей тип штучного інтелекту «загальним» або, можливо, точніше «мультимодальні», Так як є кілька способів взаємодії з ним. Для прикладу мультимодальна система AI зможе знайти прогноз погоди для нашої місцевості (пошук і вибір найкращого результату), повідомити нам, що сьогодні буде дощ (обробка природної мови та синтез мовлення) і перевірити, чи ми збираємося з парасолькою або без (машинне зір). Крім того, одна з головних характеристик мультимодальної системи полягає в «поглинанні» даних різних типів - наприклад, зображень і тексту - знаючи, як отримати корисну інформацію з обох. В результаті нам буде здаватися, що ми маємо справу з справжнім інтелектом, насправді існує лише кілька моделей штучного інтелекту, розміщених «в батареї» і в синергії один з одним.

Зоопарк DeepMind

Що стосується досліджень мультимодального ШІ, останніми тижнями лондонська компанія DeepMind, яка, як ми пам’ятаємо, є частиною галактики Google, випустив дві системи ШІ, які викликали багато розмов про себе. Перший називається Фламінго, і є моделлю, здатною вирішувати «мультимодальні завдання», тобто завдання, які можуть мати вхідну інформацію, що передається через різні модальності, такі як зображення, відео та текст, навіть у поєднанні один з одним. Flamingo — це модель візуальної мови (VLM), яка може обробляти інформацію про класифікацію, керування субтитрами, відповіді на запитання на основі зображень, забезпечуючи при цьому лише кілька зразків введення/виведення (так зване «кількократне навчання»).

Мета моделі полягає в тому, щоб «зрозуміти» ситуацію зображення або відео, правильно описати його за допомогою своєї лінгвістичної системи та правильно відповісти на запитання, що стосуються того, що воно «бачить».

Зв'язковість і інтелект?

Gato не завжди є найкращою моделлю ШІ для певного завдання. Управління роботом Sawyer (це робот, що складається з руки з багатьма «суглобами») має хороший рівень, але створення підписів лише посереднє, тоді як керування деякими іграми Atari гірше, ніж керування іншими спеціальними моделі AI. DeepMind стверджує, що з 450 завдань (порівняно з 604, над якими він навчався) Гато є більш точним, ніж люди-експерти «більш ніж у половині випадків». Дещо заплутаний спосіб сказати, що із загальної кількості 604 завдань принаймні 154 дають дуже погані результати, тоді як у решті 450 у добрій половині часу Gato поводиться краще, ніж людина-експерт, але іншу половину часу він поводиться гірше.

Шлях до узагальнення

Результати цих тижнів є результатом зобов’язань, які DeepMind виконує протягом багатьох років. Не забуваймо, що метою компанії є «вирішення проблеми інтелекту», розробка все більш загальних систем, здатних вирішувати широкий спектр різноманітних проблем. Це те, що компанія називає загальним штучним інтелектом, і саме цього вони хочуть досягти. Минулого року крок у цьому напрямку зроблено с Сприймач, мультимодальна модель на основі архітектури Transformer, здатна обробляти різні типи вхідних даних, наприклад зображення, текст, відео, звук, 3D-дані. Самі творці Gato вважають, що Perceiver може бути корисним для подальшого розширення кількості режимів майбутніх загальних систем.

Стаття взята з Post of Luca Sambucci, якщо ви хочете прочитативесь допис натисніть тут