Членове

Privacy Loop: изкуствен интелект в лабиринта на поверителността и авторското право

Това е първата от двете статии, в които разглеждам деликатната връзка между неприкосновеността на личния живот и авторското право, от една страна, и изкуствения интелект, от друга.

Проблемна връзка, при която технологичната еволюция се оказва толкова бърза, че прави всякакви регулаторни корекции остарели от първото им прилагане.

Решаването на острите въпроси, свързани с правата на хората и личните данни, изисква внимание, компетентност и незаменима дискусия между интелектуалци и специалисти на нашето време. Откриваме, че не сме достатъчно бързи в адаптирането на социалните правила към предизвикателствата, които ни поставят технологичните иновации. Нововъзникващите технологии все по-често се оказват работещи на открито, при пълната липса на регулации, които ограничават тяхното приложение, свободни да причиняват щети и следователно да го правят напълно безнаказано.

Възможно ли е да си представим контрол, който се връща по веригата на технологичното развитие до научните изследвания и техните стратегически цели?

Възможно ли е да управляваме еволюцията на нашия вид, като същевременно поддържаме твърдо уважение към индивидуалните свободи?

Поверителност?

„Колкото повече се опитваш да се скриеш, толкова повече привличаш вниманието. Защо е толкова важно никой да не знае за теб?” – от филма „Анон“ по сценарий и режисура на Андрю Никъл – 2018 г

Във филма "Веднага” от 2018 г., обществото на бъдещето е тъмно място, под прякото управление на гигантска компютърна система, наречена Ether, способна да наблюдава всяко кътче на нацията, като го наблюдава през очите на същите хора, които го населяват. Всяко човешко същество е надзирател от името на Етер и тяхната първа отговорност е, разбира се, да наблюдава себе си и своето поведение.

Ether е най-добрият съюзник на полицейските сили: чрез Ether агентите могат да проследят опита на всеки човек, като го преживеят със собствените си очи и разрешават всякакъв вид престъпления.

Полицай Сал се чуди защо трябва да се борите, за да защитите личния си живот: какъв е смисълът, когато нямате причина да се криете? В края на краищата, в епоха, в която технологиите, които изграждаме, за да увеличим безопасността на нашите домове и улици, изискват записване, наблюдение и проверка на такава информация в интерес на самите хора, които искат защита, как можем да очакваме да гарантираме тяхната поверителност?

За да демонстрира колко опасно е да имаш достъп до живота на другите, хакер ще поеме контрола над Ether и ужасен кошмар ще се стовари върху животите на милиони хора: заплахата да гледат като безпомощни зрители образите на най- измъчени моменти от живота им, излъчвани директно в ретината им.

Връзката

Le изкуствени невронни мрежи които са в основата на функционирането на съвременния изкуствен интелект, се въртят около три основни елемента: основна информация, иначе наречена сборник, ООН алгоритъм за усвояване на информация и един памет за запаметяването им.

Алгоритъмът не се ограничава до банално зареждане на информация в паметта, той я сканира в търсене на елементи, които ги свързват един с друг. Смес от данни и връзки ще бъдат прехвърлени в паметта, която ще формира a модел.

В рамките на един модел данните и връзките са напълно неразличими, поради което реконструирането на корпуса от оригинална информация за обучение от обучена невронна мрежа е почти невъзможно.

Това е особено вярно, когато корпусите съдържат големи количества данни. Такъв е случаят с големите езикови системи, известни като Large Language Models (накратко LLM), включително прословутия ChatGpt. Те дължат своята ефективност на голямото количество информация, използвана в обучението: в момента доброто обучение изисква поне няколко терабайта данни и като се има предвид, че един терабайт съответства на 90 милиарда знака, приблизително 75 милиона страници текст, лесно е да се разбере, че има необходима е толкова много информация.

Но ако моделите не могат да бъдат депроектирани, защо трябва да си задаваме проблема с нарушенията на поверителността?

Доминиране на данните

„Който е луд, може да поиска да бъде освободен от полетни мисии, но който поиска да бъде освободен от полетни мисии, не е луд.“ – по романа „Catch 22” на Джоузеф Хелър.

Иновационен бюлетин
Не пропускайте най-важните новини за иновациите. Регистрирайте се, за да ги получавате по имейл.

Събирането на данни с такъв размер, че да позволи създаването на проекти като ChatGpt или други подобни, днес е прерогатив на големи мултинационални компании, които с дигиталните си дейности са успели да се сдобият с най-голямото хранилище на информация в света: Мрежата.

Google и Microsoft, които от години управляват търсачки, които сканират мрежата и екстраполират огромни количества информация, са първите кандидати за създаването на LLM, единствените AI модели, способни да усвояват количества информация като описаните по-горе.

Трудно е да се повярва, че Google или Microsoft биха могли да скрият личната информация в своите данни, преди да я използват като корпус при обучение на невронна мрежа. Анонимизирането на информацията в случай на лингвистични системи се превръща в идентифициране на лични данни в рамките на даден корпус и замяната им с фалшиви данни. Нека си представим корпус с размер от няколко терабайта, с който искаме да обучим модел, и нека се опитаме да си представим колко работа би била необходима за ръчно анонимизиране на данните, които съдържа: това би било практически невъзможно. Но ако искахме да разчитаме на алгоритъм, който да го прави автоматично, единствената система, способна да върши тази работа, би била друг също толкова голям и сложен модел.

Ние сме в присъствието на класически проблем Catch-22: „за да обучим LLM с анонимизирани данни, се нуждаем от LLM, способен да ги анонимизира, но ако имаме LLM, способен да анонимизира данните, неговото обучение не е извършено с анонимизирани данни .“

GDPR е остарял

GDPR, който диктува (почти) глобално правилата за зачитане на поверителността на хората, в светлината на тези теми вече е стара новина и защитата на личните данни, включени в набор от обучения, не се предвижда.

В GDPR обработването на лични данни с цел научаване на общи корелации и връзки се регулира само частично от член 22, който гласи: „Субектът на данните има право да не бъде подложен на решение, основаващо се единствено на автоматизирана обработка, включително профилиране, което поражда правни последици за него или го засяга по подобен и съществен начин“.

Този член въвежда забраната за администраторите на данни да използват личните данни на субект като част от напълно автоматизиран процес на вземане на решения, който има преки правни последици за субекта. Но невронните мрежи, които лесно се приравняват към автоматизираните процеси за вземане на решения, веднъж обучени придобиват способността да вземат автоматични решения, които могат да повлияят на живота на хората. Но тези решения не винаги са „логични“. Всъщност по време на обучението всяка невронна мрежа се научава да свързва информация една с друга, като често ги свързва една с друга по абсолютно нелинеен начин. А липсата на "логика" не улеснява работата на законодателя, който иска да издигне щит в защита на личния живот на хората.

Ако някой също избере да приложи изключително рестриктивна политика, например забраняваща използването на всякакви чувствителни данни, освен ако не е изрично разрешено от собственика, законното използване на невронни мрежи би било неосъществимо. И отказването от технологиите за невронни мрежи би било голяма загуба, помислете само за моделите за анализ, обучени с клиничните данни на субектите от популация, която е била частично засегната от определено заболяване. Тези модели спомагат за подобряване на политиките за превенция чрез идентифициране на корелации между елементите, присъстващи в данните, и самото заболяване, неочаквани корелации, които в очите на клиницистите може да изглеждат напълно нелогични.

Управление на нуждите

Поставянето на проблема със зачитането на неприкосновеността на личния живот на хората, след като безразборно е разрешавало събирането му в продължение на години, е най-малкото лицемерно. Самият GDPR със своята сложност е отговорен за множество манипулации, които позволяват получаване на разрешение за обработка на лични данни чрез използване на неяснотата на клаузите и трудността на разбирането.

Със сигурност се нуждаем от опростяване на закона, което позволява неговата приложимост и истинско възпитание в съзнателното използване на лична информация.

Моето предложение е да не се позволява на компаниите да знаят личните данни на потребителите, които се регистрират за техните услуги, дори ако те са платени услуги. Използването на фалшиви лични данни от частни лица трябва да става автоматично, когато използват онлайн системи. Използването на реални данни трябва да бъде ограничено само до процеса на закупуване, като се гарантира, че те винаги са напълно отделени от базата данни на услугата.

Познаването на вкусовете и предпочитанията на субекта, без да се позволява свързване на име или лице с този профил, би функционирало като форма на анонимизация, извършена нагоре по веригата, която автоматично би позволила събирането на данни и тяхното използване в системи за автоматизация, като например изкуствен интелект.

Артиколо ди Gianfranco Fedele