Фото, відео, аудіо: штучний інтелект вчиться відтворювати реальність

Все почалося з текстового генератора GPT-3 від Open AI: сьогодні ШІ також може створювати нерухомі та рухомі зображення та звуки. Але не бракує ризиків, від авторських прав дофейкові новини

Період між вереснем і жовтнем - це період Тиждень моди, особливо в Мілані та Парижі. Цього року, одразу після двох найочікуваніших подій сезону, розпочався черговий тиждень моди, повністю цифровий. Це Тиждень моди штучного інтелекту, організований обліковим записом Instagram під назвою @ dailydall.ee, який працює у співпраці з Open AI, компанію штучного інтелекту, яку розшукують Сем Алтаман та Ілон Маск. Щодня виходить серія з 4 фотографій, стільки ж нарядів від найвідоміших дизайнерів, від Пако Рабанна до Живанші.

Справа в тому, що цей одяг ніхто не проектував. Штучний інтелект створив їх із тексту. В даному випадку було використано Dall-E 2, відкрита система AI здатний перетворювати слова на зображення, але є також Stable Diffusion, Midjourney або Imagen від Google. І новими межами є створення відео та звуку. Кілька слів, простий опис, щоб почати бачити анімацію або слухати звуки.

Інвестиції стимулюють розвиток ШІ

Підводячи підсумок, можна сказати, що лише за два роки ми перейшли від створення простих рядків тексту до створення відео. І це ще не все: 30 вересня ц. Фелікс Краузе, дослідник Meta, оголосив про розробку звукового генератора. Система, яка, як і інші, здатна створювати аудіо, починаючи з текстового запиту.

Швидке зростання, можливо, несподіване, спричинене еволюцією апаратного забезпечення та жахливими інвестиціями Big Tech. Згідно зі статтею в Wall Street Journal, відділи досліджень і розробок тільки Meta and Alphabet витратили на цю сферу понад 60 мільярдів доларів у 2021 році. Інвестиції, які консолідували еволюцію, яка тепер дозволяє машинам навчатися швидше, з меншою кількістю даних і, перш за все, ефективніше зв’язувати слова, зображення чи звуки.

Технологічний прогрес, який відкриває нові шляхи. Просто подумайте про дифузію, техніку, яка використовується для створення статичних або рухомих зображень. Штучний інтелект отримує мільйони зображень з усього Інтернету як вхідні дані, позначений описом. У цей момент він розбиває їх на тисячі пікселів, які, починаючи з запитів користувачів, потім повторно з’єднуються для створення нового зображення. Немає простого накладання наявних фотографій та ілюстрацій: це генеративний процес. Він починається з набору пікселів і вдосконалює їх, щоб створити щось нове.

Ризики та вигоди: що буде?

Разом із технічною еволюцією є також комерційний і політичний вибір. Якщо цього літа Open AI вибрав повільний випуск Dall-E 2 із дуже довгим списком очікування ШІ стабільності змінив карти на столі зі стабільною дифузією. Ця модель створення зображень фактично стала доступною для всіх, включаючи код. Це одна з причин, які спонукають до демократизації цих систем.

Демократизація, яка, безсумнівно, створить низку питань, які необхідно вирішити. Є, наприклад, суперечки щодо володіння зображеннями які генеруються. На даний момент все залежить від сервісу: створені на Midjourney, наприклад, повністю доступні користувачеві; ті з Dall-E 2 залишаються власністю Open AI.

Ще один момент стосується авторське право зображень, які використовувалися для живлення цих систем. Іншими словами, будь-який твір мистецтва, завантажений в Інтернет за останні роки, міг бути використаний як основа для навчання цих ШІ. І тому сьогодні ці люди-митці змагатимуться з машинами, здатними відтворити їхній стиль.

І це ще не все: небезпеки створення зображень або відео, які, наприклад, зображують людей у реалістичних ситуаціях, також лякають. Ризик є підроблені новини: наявність зображень, наприклад також виділено Дослідники Пенсильванського державного університету, сильно впливає на довіру до фейкових новин. Хоча багато систем мають фільтри створення, які зображують обличчя або ситуації, які вважаються недоречними, Стабільна дифузія від Stability.AI, як також зазначено в статті на The Verge, дозволить більш досвідченим користувачам створювати зображення будь-якого типу. В тому числі порнографія.

розробка BlogInnovazione.it

Ключові слова: ВІД-Є 2googleзображенняштучний інтелектметавідкриті інноваціїOpenAI

10 жовтня 2022 р. 4:22

Після Нове світло для контролю та моніторингу: група SOCOTEC в Італії придбала 100% компанії SESTOSENSOR, спеціаліста з волоконно-оптичних сенсорних технологій »

Precedente «Вправи Java для навчального курсу Java Base

Останні статті

Comunicati Stampa

Casa Green: енергетична революція для сталого майбутнього в Італії

Указ «Case Green», розроблений Європейським Союзом для підвищення енергоефективності будівель, завершив свій законодавчий процес з…

Квітень 18 2024

Статті

Електронна комерція в Італії на +27% згідно з новим звітом Casaleggio Associati

Представлено щорічний звіт Casaleggio Associati про електронну комерцію в Італії. Доповідь під назвою «AI-Commerce: передові межі електронної комерції зі штучним інтелектом».…

Квітень 17 2024

Статті

Чудова ідея: Bandalux представляє Airpure®, завісу, яка очищає повітря

Результат постійних технологічних інновацій і відданості навколишньому середовищу та добробуту людей. Bandalux представляє Airpure®, намет…

Квітень 12 2024

Статті

Патерни проектування проти принципів SOLID, переваги та недоліки

Шаблони проектування — це конкретні низькорівневі рішення повторюваних проблем у розробці програмного забезпечення. Патерни дизайну – це…

Квітень 11 2024

Фото, відео, аудіо: штучний інтелект вчиться відтворювати реальність

Інвестиції стимулюють розвиток ШІ

Ризики та вигоди: що буде?

Останні статті

Casa Green: енергетична революція для сталого майбутнього в Італії

Електронна комерція в Італії на +27% згідно з новим звітом Casaleggio Associati

Чудова ідея: Bandalux представляє Airpure®, завісу, яка очищає повітря

Патерни проектування проти принципів SOLID, переваги та недоліки

Останні статті

Тег