Petlja privatnosti: umjetna inteligencija u lavirintu privatnosti i autorskih prava

lični podaci

Ovo je prvi od dva članka u kojima govorim o delikatnom odnosu između privatnosti i autorskih prava s jedne strane i umjetne inteligencije s druge strane.

Problematičan odnos u kojem se tehnološka evolucija pokazuje tako brzom da svako regulatorno prilagođavanje postaje zastarjelo od prve primjene.

Rješavanje problematičnih pitanja koja se tiču ​​ljudskih prava i ličnih podataka zahtijeva pažnju, kompetentnost i neophodnu raspravu između intelektualaca i stručnjaka našeg vremena. Otkrivamo da nismo dovoljno brzi u prilagođavanju društvenih pravila izazovima koje nam postavljaju tehnološke inovacije. Tehnologije u nastajanju sve više rade na otvorenom polju, u potpunom odsustvu propisa koji ograničavaju njihovu primjenu, slobodnim da prouzrokuju štetu i stoga to čine potpuno nekažnjeno.

Da li je moguće zamisliti kontrolu koja ide uz lanac tehnološkog razvoja do naučnog istraživanja i njegovih strateških ciljeva?

Da li je moguće upravljati evolucijom naše vrste uz čvrsto poštovanje individualnih sloboda?

Privatnost?

„Što više pokušavate da sakrijete, više pažnje privlačite. Zašto je toliko važno da niko ne zna za tebe?” – iz filma “Anon” po scenariju i režiji Andrewa Niccola – 2018

u filmu "smjesta” 2018. godine, društvo budućnosti je mračno mjesto, pod direktnom kontrolom gigantskog kompjuterskog sistema zvanog Eter, sposobnog da nadgleda svaki kutak nacije posmatrajući ga očima istih ljudi koji ga naseljavaju. Svako ljudsko biće je nadzornik u ime Etera i njihova prva odgovornost je, naravno, da nadgledaju sebe i svoje ponašanje.

Eter je najbolji saveznik policijskih snaga: preko Etera agenti mogu pratiti iskustvo bilo koje osobe tako što će ga proživjeti vlastitim očima i riješiti bilo koju vrstu zločina.

Policajac Sal se pita zašto biste se trebali boriti da zaštitite svoju privatnost: koja je svrha kada se nemate razloga skrivati? Uostalom, u eri u kojoj tehnologije koje gradimo za povećanje sigurnosti naših domova i naših ulica zahtijevaju snimanje, praćenje i provjeru takvih informacija u interesu samih ljudi koji traže zaštitu, kako možemo očekivati ​​da garantujemo njihovu privatnost?

Kako bi pokazao koliko je opasno imati pristup životima drugih, haker će preuzeti kontrolu nad Eterom i užasna noćna mora će se spustiti na živote miliona ljudi: prijetnja da će kao bespomoćni gledaoci morati gledati slike većine izmučenih trenutaka njihovih života, emitovanih direktno u mrežnjaču.

The Loop

Le umjetne neuronske mreže koji su u osnovi funkcioniranja moderne umjetne inteligencije, vrte se oko tri glavna elementa: osnovne informacije koje se inače nazivaju korpus, a algoritam za asimilaciju informacija i a memorije za njihovo pamćenje.

Thealgoritam nije ograničeno na banalno učitavanje informacija u memoriju, već ih skenira u potrazi za elementima koji ih međusobno povezuju. Kombinacija podataka i odnosa će se prenijeti u memoriju koja će formirati a model.

Unutar modela, podaci i odnosi su potpuno nerazlučivi, zbog čega je rekonstrukcija korpusa originalnih informacija za obuku iz obučene neuronske mreže gotovo nemoguća.

Ovo je posebno tačno kada korpusi sadrže velike količine podataka. Ovo je slučaj velikih lingvističkih sistema poznatih kao Large Language Models (skraćeno LLM) uključujući zloglasni ChatGpt. Svoju efikasnost duguju velikoj količini informacija koje se koriste u obuci: trenutno dobra obuka zahtijeva najmanje nekoliko terabajta podataka, a s obzirom da jedan terabajt odgovara 90 milijardi znakova, otprilike 75 miliona stranica teksta, lako je razumjeti da postoji potrebno je toliko informacija.

Ali ako modeli ne mogu biti de-inženjering, zašto bismo se pitali problem kršenja privatnosti?

Dominacija podataka

“Ko je lud, može tražiti da bude izuzet iz letačkih misija, ali ko god traži da bude izuzet iz letačkih misija nije lud.” – prema romanu “Catch 22” Josepha Hellera.

Prikupljanje podataka takve veličine da omogućava kreiranje projekata poput ChatGpt ili drugih sličnih danas je prerogativ velikih multinacionalnih kompanija koje su se svojim digitalnim aktivnostima domogle najvećeg spremišta informacija u svijetu: Web.

Google i Microsoft, koji godinama upravljaju pretraživačima koji skeniraju Web i ekstrapoliraju ogromne količine informacija, prvi su kandidati za stvaranje LLM-a, jedinih AI modela sposobnih za varenje količina informacija poput onih opisanih gore.

Teško je povjerovati da bi Google ili Microsoft mogli prikriti lične podatke u svojim podacima prije nego što ih koriste kao korpus za obuku neuronske mreže. Anonimizacija informacija u slučaju lingvističkih sistema se prevodi u identifikaciju ličnih podataka unutar korpusa i njihovu zamenu lažnim podacima. Zamislimo korpus veličine nekoliko terabajta sa kojim želimo da treniramo model i pokušajmo da zamislimo koliko bi posla bilo potrebno da se podaci koji se ručno anonimizuju: to bi bilo praktično nemoguće. Ali ako bismo se htjeli osloniti na a algoritam da bi to uradio automatski, jedini sistem koji bi mogao da obavi ovaj posao bio bi drugi jednako veliki i sofisticirani model.

Nalazimo se u klasičnom problemu Catch-22: „da bismo trenirali LLM s anonimiziranim podacima, potreban nam je LLM sposoban da ih anonimizira, ali ako imamo LLM koji je sposoban anonimizirati podatke, njegova obuka nije obavljena s anonimiziranim podacima .”

GDPR je zastario

Il GDPR che detta (quasi) globalmente le regole per il rispetto della privacy delle persone, alla luce di questi argomenti è già roba vecchia e la protezione dei dati personali coinvolti in un set di addestramento non è contemplato.

u GDPR, trattare i dati personali allo scopo di apprendere correlazioni e connessioni generali è solo parzialmente regolato dall’articolo 22 che recita: “L’interessato ha il diritto di non essere sottoposto a una decisione basata esclusivamente su trattamento automatizzato, compresa la profilazione, che produca effetti giuridici nei suoi confronti o che incida in modo analogo e significativo su di lui”.

Ovaj članak uvodi zabranu rukovaocima podataka da koriste lične podatke subjekta kao dio potpuno automatiziranog procesa donošenja odluka koji ima direktne pravne učinke na subjekta. Ali neuronske mreže, koje se lako asimiliraju sa automatizovanim procesima donošenja odluka, jednom obučene stiču sposobnost donošenja automatskih odluka koje mogu uticati na živote ljudi. Ali ove odluke nisu uvijek “logične”. Tokom treninga, zapravo, svaka neuronska mreža uči da povezuje informacije jedne s drugima, često ih međusobno povezujući na apsolutno nelinearan način. A odsustvo "logike" ne olakšava posao zakonodavcu koji želi da podigne štit u odbranu privatnosti ljudi.

Ako bi neko također odlučio primijeniti ekstremno restriktivnu politiku, na primjer zabranu korištenja bilo kakvih osjetljivih podataka osim ako to nije izričito ovlastio vlasnik, legalna upotreba neuronskih mreža bila bi neizvediva. A odustajanje od tehnologije neuronskih mreža bio bi veliki gubitak, samo pomislite na modele analize obučene s kliničkim podacima subjekata populacije koja je djelimično zahvaćena određenom bolešću. Ovi modeli pomažu u poboljšanju politike prevencije tako što identificiraju korelacije između elemenata prisutnih u podacima i same bolesti, neočekivane korelacije koje u očima kliničara mogu izgledati potpuno nelogične.

Upravljanje potrebama

Porsi il problema del rispetto della privacy delle persone dopo averne autorizzato indiscriminatamente la raccolta per anni è quantomeno ipocrita. Lo stesso GDPR con la sua complessità è responsabile di numerose manipolazioni che consentono di raccogliere l’autorizzazione al trattamento dei dati personali sfruttando l’ambiguità delle clausole e la difficoltà di comprensione.

Svakako nam je potrebno pojednostavljenje zakona koje omogućava njegovu primjenjivost i pravo obrazovanje u svjesnom korištenju ličnih podataka.

Moj prijedlog je da se ne dozvoli kompanijama da znaju lične podatke korisnika koji se registruju za njihove usluge, čak i ako su to plaćene usluge. Korišćenje lažnih ličnih podataka od strane privatnih lica trebalo bi da se desi automatski kada koriste onlajn sisteme. Upotreba stvarnih podataka trebala bi biti ograničena samo na proces kupovine, osiguravajući da je uvijek potpuno odvojen od baze podataka usluga.

Poznavanje ukusa i preferencija subjekta bez dopuštanja povezivanja imena ili lica sa ovim profilom funkcionisalo bi kao oblik anonimizacije koji se sprovodi uzvodno, što bi automatski omogućilo prikupljanje podataka i njihovu upotrebu u sistemima automatizacije kao što su veštačka inteligencija.

Član od Gianfranco Fedele

autor

  • CTO u Mazer srl - kuća The Laila Project. Stručnjak za analizu, dizajn i programiranje arhitektura marketing automatizacije. Surađivao sam na razvoju bankarskog softvera, uredničkog softvera, softvera za upravljanje. Moje specijalnosti: Marketing automatizacija, Web rješenja, softver i baza podataka arhitektura, analiza podataka, razvoj softvera, refaktoriranje softvera, baza podataka refaktoriranje, vertikalizacija, obuka. Danas pružam svoju stratešku podršku visoko inovativnim projektima koji se bave umjetnom inteligencijom i blockchain.

    Pogledajte sve članke