Privacy Loop: штучний інтелект у лабіринті конфіденційності та авторського права
Це перша з двох статей, у яких я розглядаю делікатний зв’язок між конфіденційністю та авторським правом, з одного боку, та штучним інтелектом, з іншого.
Проблемні стосунки, коли технологічна еволюція виявляється настільки швидкою, що робить будь-які регулятивні коригування застарілими з моменту їх першого застосування.
Вирішення гострих питань щодо прав людини та персональних даних вимагає уваги, компетентності та неодмінної дискусії між інтелектуалами та спеціалістами сучасності. Ми виявляємо, що недостатньо швидко адаптуємо соціальні правила до викликів, які ставлять перед нами технологічні інновації. Технології, що розвиваються, все частіше виявляються діючими у відкритому полі, за повної відсутності правил, які обмежують їх застосування, вільні завдавати шкоди і, отже, робити це абсолютно безкарно.
Чи можна уявити контроль, який повертається по ланцюжку технологічного розвитку до наукового дослідження та його стратегічних цілей?
Чи можливо керувати еволюцією нашого виду, зберігаючи тверду повагу до індивідуальних свобод?
Конфіденційність?
«Чим більше ти намагаєшся приховати, тим більше уваги привертаєш. Чому так важливо, щоб про вас ніхто не знав?» – з фільму «Анон» сценариста та режисера Ендрю Нікола – 2018
У фільмі "Скоро” 2018 року, суспільство майбутнього – це темне місце під прямим контролем гігантської комп’ютерної системи під назвою Ефір, яка здатна стежити за кожним куточком нації, спостерігаючи за ним очима тих самих людей, які його населяють. Кожна людина є наглядачем від імені Ефіру, і її першим обов’язком є, звичайно, стежити за собою та своєю поведінкою.
Ether — найкращий союзник поліції: через Ether агенти можуть відстежити досвід будь-якої людини, переживши його на власні очі, і розкрити будь-який тип злочину.
Офіцер поліції Сал дивується, чому ви повинні боротися за захист свого приватного життя: який сенс, коли у вас немає причин ховатися? Зрештою, в епоху, коли технології, які ми створюємо для підвищення безпеки наших будинків і вулиць, вимагають запису, моніторингу та перевірки такої інформації в інтересах самих людей, які звертаються за захистом, як ми можемо розраховувати на гарантію їх конфіденційність?
Щоб продемонструвати, наскільки небезпечно мати доступ до життя інших, хакер візьме контроль над Ether і жахливий кошмар опуститься на життя мільйонів людей: загроза спостерігати як безпорадні глядачі за зображеннями найбільших вимучені моменти їхнього життя, що транслюються безпосередньо на їхніх сітківках.
Петля
Le штучні нейронні мережі які лежать в основі функціонування сучасного штучного інтелекту, обертаються навколо трьох основних елементів: базова інформація, інакше звана тіло, А алгоритм для засвоєння інформації та а пам'ять для їх запам'ятовування.
L 'алгоритм він не обмежується банальним завантаженням інформації в пам'ять, він сканує її в пошуках елементів, що зв'язують їх між собою. Суміш даних і зв’язків буде передано в пам’ять, яка сформує a модель.
Усередині моделі дані та зв’язки абсолютно нерозрізнені, тому реконструювати корпус вихідної навчальної інформації з навченої нейронної мережі майже неможливо.
Це особливо вірно, коли корпуси містять великі обсяги даних. Це стосується великих мовних систем, відомих як Large Language Models (скорочено LLM), включаючи сумнозвісний ChatGpt. Вони завдячують своєю ефективністю великому об’єму інформації, яка використовується під час навчання: наразі для якісного навчання потрібно щонайменше кілька терабайтів даних, і враховуючи, що один терабайт відповідає 90 мільярдам символів, приблизно 75 мільйонам сторінок тексту, легко зрозуміти, що є потрібно так багато інформації.
Але якщо моделі не можна деінжинірингувати, чому ми повинні задавати собі проблему порушення конфіденційності?
Домінування даних
«Хто божевільний, той може попросити звільнити його від польотів, але той, хто просить звільнити його від польотів, не божевільний». – за мотивами роману Джозефа Хеллера «Catch 22».
Збір даних такого розміру, щоб дозволити створення проектів, таких як ChatGpt або інших подібних, сьогодні є прерогативою великих транснаціональних компаній, які завдяки своїй цифровій діяльності змогли отримати в руки найбільше сховище інформації у світі: Мережа.
Google і Microsoft, які роками керували пошуковими системами, які сканують Інтернет і екстраполюють величезні обсяги інформації, є першими кандидатами на створення LLM, єдиних моделей штучного інтелекту, здатних перетравлювати таку кількість інформації, як описано вище.
Важко повірити, що Google або Microsoft зможуть приховати особисту інформацію у своїх даних, перш ніж використовувати її як корпус для навчання нейронної мережі. Анонімізація інформації у випадку лінгвістичних систем перетворюється на ідентифікацію персональних даних у корпусі та їх заміну фальшивими даними. Уявімо корпус розміром у кілька терабайт, за допомогою якого ми хочемо навчити модель, і спробуймо уявити, скільки роботи потрібно було б, щоб вручну анонімізувати дані, які він містить: це було б практично неможливо. Але якби ми хотіли покластися на a алгоритм щоб зробити це автоматично, єдиною системою, здатною виконувати цю роботу, була б інша така ж велика та складна модель.
Ми маємо класичну проблему Catch-22: «щоб навчати LLM з анонімними даними, нам потрібен LLM, здатний їх анонімізувати, але якщо у нас є LLM, здатний анонімізувати дані, його навчання не проводилося з анонімними даними. .”
GDPR застарів
GDPR, який диктує (майже) у всьому світі правила поваги до конфіденційності людей, у світлі цих тем вже є старою новиною, і захист персональних даних, залучених до навчального набору, не передбачається.
У GDPR обробка персональних даних з метою вивчення загальних кореляцій і зв’язків лише частково регулюється статтею 22, яка говорить: «Суб’єкт даних має право не піддаватися рішенню, заснованому виключно на автоматизованій обробці, включаючи профілювання, яке створює для нього правові наслідки або впливає на нього подібним і значним чином».
Ця стаття вводить заборону контролерам даних використовувати персональні дані суб’єкта як частину повністю автоматизованого процесу прийняття рішень, який має прямі правові наслідки для суб’єкта. Але нейронні мережі, які легко асоціюються з автоматизованими процесами прийняття рішень, після навчання набувають здатності приймати автоматичні рішення, які можуть вплинути на життя людей. Але ці рішення не завжди «логічні». Фактично під час навчання кожна нейронна мережа вчиться пов’язувати інформацію одна з одною, часто пов’язуючи їх одна з одною абсолютно нелінійним чином. І відсутність «логіки» не полегшує роботу законодавцю, який хоче підняти щит на захист приватного життя людей.
Якщо хтось також вирішить застосувати надзвичайно обмежувальну політику, наприклад, заборонити використання будь-яких конфіденційних даних без явного дозволу власника, легальне використання нейронних мереж буде неможливим. І відмова від нейромережевих технологій була б великою втратою, тільки подумайте про моделі аналізу, навчені клінічними даними суб’єктів популяції, яка була частково вражена певною хворобою. Ці моделі допомагають покращити політику профілактики, визначаючи кореляції між елементами, присутніми в даних, і самою хворобою, несподівані кореляції, які в очах клініцистів можуть виглядати абсолютно нелогічними.
Управління потребами
Постановка проблеми поваги до приватного життя людей після безладного дозволу на його збір протягом багатьох років є, щонайменше, лицемірним. Сам GDPR з його складністю несе відповідальність за численні маніпуляції, які дозволяють отримати дозвіл на обробку персональних даних, використовуючи неоднозначність пунктів і труднощі розуміння.
Нам, звичайно, потрібне спрощення закону, яке уможливило б його застосування, і справжня освіта свідомого використання особистої інформації.
Моя пропозиція полягає в тому, щоб не дозволяти компаніям знати особисті дані користувачів, які реєструються на їхні послуги, навіть якщо це платні послуги. Використання підроблених персональних даних приватними особами повинно відбуватися автоматично, коли вони користуються онлайн-системами. Використання реальних даних має обмежуватися лише процесом купівлі, гарантуючи, що вони завжди повністю відокремлені від бази даних послуг.
Знання смаків і вподобань суб’єкта без дозволу на пов’язування імені чи обличчя з цим профілем функціонуватиме як форма анонімізації, що виконується на початку, що автоматично дозволить збирати дані та їх використання в системах автоматизації, таких як штучний інтелект.
Артиколо ді Gianfranco Fedele