Članci

Petlja privatnosti: umjetna inteligencija u lavirintu privatnosti i autorskih prava

Ovo je prvi od dva članka u kojima govorim o delikatnom odnosu između privatnosti i autorskih prava s jedne strane i umjetne inteligencije s druge strane.

Problematičan odnos u kojem se tehnološka evolucija pokazuje tako brzom da svako regulatorno prilagođavanje postaje zastarjelo od prve primjene.

Rješavanje problematičnih pitanja koja se tiču ljudskih prava i ličnih podataka zahtijeva pažnju, kompetentnost i neophodnu raspravu između intelektualaca i stručnjaka našeg vremena. Otkrivamo da nismo dovoljno brzi u prilagođavanju društvenih pravila izazovima koje nam postavljaju tehnološke inovacije. Tehnologije u nastajanju sve više rade na otvorenom polju, u potpunom odsustvu propisa koji ograničavaju njihovu primjenu, slobodnim da prouzrokuju štetu i stoga to čine potpuno nekažnjeno.

Da li je moguće zamisliti kontrolu koja ide uz lanac tehnološkog razvoja do naučnog istraživanja i njegovih strateških ciljeva?

Da li je moguće upravljati evolucijom naše vrste uz čvrsto poštovanje individualnih sloboda?

Privatnost?

„Što više pokušavate da sakrijete, više pažnje privlačite. Zašto je toliko važno da niko ne zna za tebe?” – iz filma “Anon” po scenariju i režiji Andrewa Niccola – 2018

u filmu "smjesta” 2018. godine, društvo budućnosti je mračno mjesto, pod direktnom kontrolom gigantskog kompjuterskog sistema zvanog Eter, sposobnog da nadgleda svaki kutak nacije posmatrajući ga očima istih ljudi koji ga naseljavaju. Svako ljudsko biće je nadzornik u ime Etera i njihova prva odgovornost je, naravno, da nadgledaju sebe i svoje ponašanje.

Eter je najbolji saveznik policijskih snaga: preko Etera agenti mogu pratiti iskustvo bilo koje osobe tako što će ga proživjeti vlastitim očima i riješiti bilo koju vrstu zločina.

Policajac Sal se pita zašto biste se trebali boriti da zaštitite svoju privatnost: koja je svrha kada se nemate razloga skrivati? Uostalom, u eri u kojoj tehnologije koje gradimo za povećanje sigurnosti naših domova i naših ulica zahtijevaju snimanje, praćenje i provjeru takvih informacija u interesu samih ljudi koji traže zaštitu, kako možemo očekivati da garantujemo njihovu privatnost?

Kako bi pokazao koliko je opasno imati pristup životima drugih, haker će preuzeti kontrolu nad Eterom i užasna noćna mora će se spustiti na živote miliona ljudi: prijetnja da će kao bespomoćni gledaoci morati gledati slike većine izmučenih trenutaka njihovih života, emitovanih direktno u mrežnjaču.

The Loop

Le umjetne neuronske mreže koji su u osnovi funkcioniranja moderne umjetne inteligencije, vrte se oko tri glavna elementa: osnovne informacije koje se inače nazivaju korpus, a algoritam za asimilaciju informacija i a memorije za njihovo pamćenje.

Algoritam nije ograničen na banalno učitavanje informacija u memoriju, on ih skenira u potrazi za elementima koji ih međusobno povezuju. Kombinacija podataka i odnosa će se prenijeti u memoriju koja će formirati a model.

Unutar modela, podaci i odnosi su potpuno nerazlučivi, zbog čega je rekonstrukcija korpusa originalnih informacija za obuku iz obučene neuronske mreže gotovo nemoguća.

Ovo je posebno tačno kada korpusi sadrže velike količine podataka. Ovo je slučaj velikih lingvističkih sistema poznatih kao Large Language Models (skraćeno LLM) uključujući zloglasni ChatGpt. Svoju efikasnost duguju velikoj količini informacija koje se koriste u obuci: trenutno dobra obuka zahtijeva najmanje nekoliko terabajta podataka, a s obzirom da jedan terabajt odgovara 90 milijardi znakova, otprilike 75 miliona stranica teksta, lako je razumjeti da postoji potrebno je toliko informacija.

Ali ako modeli ne mogu biti de-inženjering, zašto bismo se pitali problem kršenja privatnosti?

Dominacija podataka

“Ko je lud, može tražiti da bude izuzet iz letačkih misija, ali ko god traži da bude izuzet iz letačkih misija nije lud.” – prema romanu “Catch 22” Josepha Hellera.

Inovacijski bilten
Ne propustite najvažnije vijesti o inovacijama. Prijavite se da ih primate putem e-pošte.

Prikupljanje podataka takve veličine da omogućava kreiranje projekata poput ChatGpt ili drugih sličnih danas je prerogativ velikih multinacionalnih kompanija koje su se svojim digitalnim aktivnostima domogle najvećeg spremišta informacija u svijetu: Web.

Google i Microsoft, koji godinama upravljaju pretraživačima koji skeniraju Web i ekstrapoliraju ogromne količine informacija, prvi su kandidati za stvaranje LLM-a, jedinih AI modela sposobnih za varenje količina informacija poput onih opisanih gore.

Teško je povjerovati da bi Google ili Microsoft mogli prikriti lične podatke u svojim podacima prije nego što ih koriste kao korpus za obuku neuronske mreže. Anonimizacija informacija u slučaju lingvističkih sistema se prevodi u identifikaciju ličnih podataka unutar korpusa i njihovu zamenu lažnim podacima. Zamislimo korpus veličine nekoliko terabajta sa kojim želimo da treniramo model i pokušajmo da zamislimo koliko bi posla bilo potrebno da se podaci koji se ručno anonimizuju: to bi bilo praktično nemoguće. Ali ako bismo želeli da se oslonimo na algoritam da to uradi automatski, jedini sistem koji bi mogao da uradi ovaj posao bio bi još jedan jednako veliki i sofisticirani model.

Nalazimo se u klasičnom problemu Catch-22: „da bismo trenirali LLM s anonimiziranim podacima, potreban nam je LLM sposoban da ih anonimizira, ali ako imamo LLM koji je sposoban anonimizirati podatke, njegova obuka nije obavljena s anonimiziranim podacima .”

GDPR je zastario

GDPR koji (skoro) globalno diktira pravila za poštivanje privatnosti ljudi, u svjetlu ovih tema je već stara vijest, a zaštita ličnih podataka uključenih u set za obuku se ne razmišlja.

U GDPR-u, obrada ličnih podataka u svrhu učenja općih korelacija i veza samo je djelomično uređena člankom 22. koji kaže: „Subjek podataka ima pravo da ne bude podvrgnut odluci zasnovanoj isključivo na automatiziranoj obradi, uključujući profiliranje, koja proizvodi pravne učinke na njega ili koji ga pogađaju na sličan i značajan način".

Ovaj članak uvodi zabranu rukovaocima podataka da koriste lične podatke subjekta kao dio potpuno automatiziranog procesa donošenja odluka koji ima direktne pravne učinke na subjekta. Ali neuronske mreže, koje se lako asimiliraju sa automatizovanim procesima donošenja odluka, jednom obučene stiču sposobnost donošenja automatskih odluka koje mogu uticati na živote ljudi. Ali ove odluke nisu uvijek “logične”. Tokom treninga, zapravo, svaka neuronska mreža uči da povezuje informacije jedne s drugima, često ih međusobno povezujući na apsolutno nelinearan način. A odsustvo "logike" ne olakšava posao zakonodavcu koji želi da podigne štit u odbranu privatnosti ljudi.

Ako bi neko također odlučio primijeniti ekstremno restriktivnu politiku, na primjer zabranu korištenja bilo kakvih osjetljivih podataka osim ako to nije izričito ovlastio vlasnik, legalna upotreba neuronskih mreža bila bi neizvediva. A odustajanje od tehnologije neuronskih mreža bio bi veliki gubitak, samo pomislite na modele analize obučene s kliničkim podacima subjekata populacije koja je djelimično zahvaćena određenom bolešću. Ovi modeli pomažu u poboljšanju politike prevencije tako što identificiraju korelacije između elemenata prisutnih u podacima i same bolesti, neočekivane korelacije koje u očima kliničara mogu izgledati potpuno nelogične.

Upravljanje potrebama

Postavljanje problema poštovanja privatnosti ljudi nakon što je godinama neselektivno odobravalo njegovo prikupljanje je u najmanju ruku licemjerno. Sam GDPR svojom složenošću odgovoran je za brojne manipulacije koje omogućavaju dobivanje ovlaštenja za obradu ličnih podataka iskorištavanjem dvosmislenosti klauzula i poteškoća u razumijevanju.

Svakako nam je potrebno pojednostavljenje zakona koje omogućava njegovu primjenjivost i pravo obrazovanje u svjesnom korištenju ličnih podataka.

Moj prijedlog je da se ne dozvoli kompanijama da znaju lične podatke korisnika koji se registruju za njihove usluge, čak i ako su to plaćene usluge. Korišćenje lažnih ličnih podataka od strane privatnih lica trebalo bi da se desi automatski kada koriste onlajn sisteme. Upotreba stvarnih podataka trebala bi biti ograničena samo na proces kupovine, osiguravajući da je uvijek potpuno odvojen od baze podataka usluga.

Poznavanje ukusa i preferencija subjekta bez dopuštanja povezivanja imena ili lica sa ovim profilom funkcionisalo bi kao oblik anonimizacije koji se sprovodi uzvodno, što bi automatski omogućilo prikupljanje podataka i njihovu upotrebu u sistemima automatizacije kao što su veštačka inteligencija.

Član od Gianfranco Fedele