Articoli

Privacy Loop: le intelligenze artificiali nel labirinto della Privacy e del Copyright

Questo è il primo di due articoli in cui affronto il delicato rapporto tra Privacy e Copyright da un lato, Intelligenze Artificiali dall’altro.

Un rapporto problematico dove l’evoluzione tecnologica si sta dimostrando talmente veloce da rendere ogni adeguamento normativo obsoleto già dalla sua prima applicazione.

Affrontare temi spinosi che coinvolgono i diritti delle persone e i dati personali richiede attenzione, competenza ed un indispensabile confronto tra intellettuali e specialisti del nostro tempo. Stiamo scoprendo di non essere abbastanza rapidi nell’adeguamento delle regole sociali alle sfide che ci pongono le innovazioni tecnologiche. Sempre più spesso le tecnologie emergenti si trovano ad operare in campo aperto, nell’assenza totale di norme che ne limitino l’applicazione, libere di fare danni e di farlo quindi nella totale impunità.

È ipotizzabile un controllo che risalga la catena dello sviluppo tecnologico fino alla ricerca scientifica ed i suoi obiettivi strategici ?

È pensabile governare l’evoluzione della nostra specie mantenendo saldo il rispetto delle libertà individuali ?

Privacy?

“Più cerchi di nasconderti e più attiri l’attenzione. Perché è così importante che nessuno sappia di te?” – dal film “Anon” scritto e diretto da Andrew Niccol – 2018

Nel film “Anon” del 2018 la società del futuro è un luogo cupo, sotto il controllo diretto di un gigantesco sistema informatico chiamato Ether, in grado di monitorare ogni angolo della nazione osservandola attraverso gli occhi delle stesse persone che la popolano. Ogni essere umano è un sorvegliante per conto di Ether e la sua prima responsabilità è, ovviamente, quella di monitorare sé stesso ed il proprio comportamento.

Ether è il migliore alleato dei corpi di polizia: gli agenti attraverso Ether possono risalire all’esperienza di qualsiasi persona rivivendola con i suoi stessi occhi e risolvere ogni tipo di crimine.

L’agente di polizia Sal s’interroga sui motivi per cui dovrebbe essere necessario lottare per difendere la propria privacy: a cosa serve quando non si ha alcun motivo per nascondersi? In fondo, in un’epoca in cui le tecnologie che costruiamo per aumentare la sicurezza delle nostre case e delle nostre strade obbligano alla registrazione, al monitoraggio e alla verifica di tali informazioni nell’interesse delle persone stesse che chiedono protezione, come possiamo pretendere di garantire la loro privacy?

Per dimostrare quanto sia pericoloso avere accesso alle vite degli altri, un hacker prenderà il controllo di Ether e sulla vita di milioni di persone calerà un terribile incubo: la minaccia di dover assistere da spettatori inermi alle immagini dei momenti più tormentati della propria vita, trasmesse direttamente nelle proprie retine.

The Loop

Le reti neurali artificiali che sottendono al funzionamento delle moderne intelligenze artificiali, ruotano attorno a tre elementi principali: informazioni di base altrimenti dette corpus, un algoritmo per l’assimilazione delle informazioni e una memoria per la loro memorizzazione.

L’algoritmo non si limita ad un banale caricamento delle informazioni nella memoria, esso lo scandaglia alla ricerca di elementi che le mettono in relazione tra loro. Nella memoria verrà trasferito un mix di dati e relazioni che andranno a formare un modello.

All’interno di un modello, i dati e le relazioni sono completamente indistinguibili, per questo motivo ricostruire il corpus delle informazioni di addestramento originali partendo da una rete neurale addestrata è quasi impossibile.

Questo vale in particolare quando i corpus contengono grandi quantità di dati. È il caso dei grandi sistemi linguistici noti come Large Language Models (in breve LLM) tra cui il famigerato ChatGpt. Essi devono la loro efficacia alla grande quantità di informazioni utilizzate l’addestramento: ad oggi un buon addestramento richiede almeno alcuni terabyte di dati e dato che un terabyte corrisponde a 90 miliardi di caratteri, a circa a 75 milioni di pagine di testo, è facile comprendere che le informazioni necessarie sono veramente tante.

Ma se i modelli non possono essere de-ingegnerizzati, perché dovremmo porci il problema della violazione della privacy?

Il predominio sui dati

“Chi è pazzo può chiedere di essere esentato dalle missioni di volo, ma chi chiede di essere esentato dalle missioni di volo non è pazzo.” – tratto dal romanzo “Comma 22” di Joseph Heller.

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

La raccolta di dati di dimensioni tali da consentire la creazione di progetti come ChatGpt o altri simili è oggi appannaggio delle grandi aziende multinazionali che con le loro attività digitali hanno potuto mettere le mani nel più grande repository di informazioni del mondo: il Web.

Google e Microsoft, che da anni gestiscono motori di ricerca che scandagliano il Web e ne estrapolano enormi quantità di informazioni, sono i primi candidati alla creazione di LLM, i soli modelli di AI in grado di digerire quantità di informazioni come quelle descritte sopra.

È difficile credere che Google o Microsoft siano in grado di oscurare le informazioni personali presenti nei loro dati prima di utilizzarli come corpus nell’addestramento di una rete neurale. Anonimizzare le informazioni nel caso dei sistemi linguistici si traduce nell’identificazione di dati personali all’interno di un corpus e nella loro sostituzione con dati fake. Ipotizziamo un corpus delle dimensioni di alcuni terabyte con cui vogliamo addestrare un modello e proviamo ad immaginare quanto lavoro sarebbe necessario per anonimizzare manualmente i dati in esso contenuti: sarebbe praticamente impossibile. Ma se volessimo affidarci ad un algoritmo per farlo in maniera automatica, l’unico sistema in grado di effettuare questo lavoro sarebbe un altro modello altrettanto grande e sofisticato.

Siamo in presenza di un classico problema da Comma 22: “per addestrare un LLM con dati anonimizzati serve un LLM in grado di anonimizzarli, ma se abbiamo un LLM in grado di anonimizzare i dati, il suo addestramento non è stato fatto con dati anonimizzati.”

Il GDPR è obsoleto

Il GDPR che detta (quasi) globalmente le regole per il rispetto della privacy delle persone, alla luce di questi argomenti è già roba vecchia e la protezione dei dati personali coinvolti in un set di addestramento non è contemplato.

Nel GDPR, trattare i dati personali allo scopo di apprendere correlazioni e connessioni generali è solo parzialmente regolato dall’articolo 22 che recita: “L’interessato ha il diritto di non essere sottoposto a una decisione basata esclusivamente su trattamento automatizzato, compresa la profilazione, che produca effetti giuridici nei suoi confronti o che incida in modo analogo e significativo su di lui”.

Questo articolo introduce il divieto per i responsabili del trattamento ad utilizzare i dati personali di un soggetto nell’ambito di un processo decisionale completamente automatizzato che abbia effetti legali diretti sul soggetto stesso. Ma le reti neurali, facilmente assimilabili a processi decisionali automatizzati, una volta istruite acquisiscono la capacità di prendere decisioni automatiche che possono avere un impatto sulla vita delle persone. Ma queste decisioni non sono sempre “logiche”. Durante l’addestramento, infatti, ogni rete neurale impara ad associare tra di loro le informazioni, spesso mettendole in relazione tra loro in maniera assolutamente non lineare. E l’assenza di una “logicità” non semplifica il lavoro al legislatore che vuole alzare uno scudo in difesa della privacy delle persone.

Se altresì si scegliesse di applicare una politica estremamente restrittiva, ad esempio vietando l’utilizzo di ogni dato sensibile se non esplicitamente autorizzati dal proprietario, un utilizzo legale delle reti neurali sarebbe impraticabile. E rinunciare alle tecnologie delle reti neurali sarebbe una perdita importante, basti pensare ai modelli di analisi addestrati coi dati clinici dei soggetti di una popolazione su cui ha in parte inciso una particolare malattia. Questi modelli aiutano a migliorare le politiche di prevenzione identificando correlazioni tra gli elementi presenti dei dati e la malattia stessa, correlazioni inaspettate che agli occhi dei clinici possono apparire completamente illogiche.

Governare i bisogni

Porsi il problema del rispetto della privacy delle persone dopo averne autorizzato indiscriminatamente la raccolta per anni è quantomeno ipocrita. Lo stesso GDPR con la sua complessità è responsabile di numerose manipolazioni che consentono di raccogliere l’autorizzazione al trattamento dei dati personali sfruttando l’ambiguità delle clausole e la difficoltà di comprensione.

Serve certamente una semplificazione della norma che ne consenta l’applicabilità ed una vera educazione all’utilizzo consapevole delle informazioni personali.

La mia proposta è di non consentire alle aziende di conoscere i dati personali degli utenti che si registrano ai propri servizi, anche se si tratta di servizi a pagamento. L’utilizzo di dati personali fasulli da parte dei privati dovrebbe avvenire in maniera automatica quando usufruiscono dei sistemi online. L’utilizzo dei dati reali andrebbe confinato al solo processo di acquisto garantendo che sia sempre completamente separato dalla banca dati del servizio.

Conoscere i gusti e le preferenze del soggetto senza consentire di associare a questo profilo un nome o un volto, funzionerebbe come una forma di anonimizzazione effettuata a monte che consentirebbe automaticamente la raccolta dei dati ed il loro utilizzo nell’ambito dei sistemi di automazione come le intelligenze artificiali.

Articolo di Gianfranco Fedele

Tags: chatgptcopyrightgdprgianfranco fedelegoogleintelligenza artificialelarge language modelsLLMmicrosoftNo Human in the Loopprivacyreti neurali artificiali

26 Settembre 2023 12:56 pm

Successivo Neuralink inizia il reclutamento per la prima sperimentazione clinica sull'uomo di un impianto cerebrale »

Precedente « Idea Brillante: HUDWAY DRIVE, innovazione per mantenerti concentrato sulla strada

Articoli recenti

Comunicati Stampa

Veeam presenta il supporto più completo per il ransomware, dalla protezione alla risposta e al ripristino

Coveware by Veeam continuerà a fornire servizi di risposta agli incidenti di cyber-estorsione. Coveware offrirà funzionalità di forensics e remediation…

23 Aprile 2024

Articoli

Rivoluzione Verde e Digitale: Come la Manutenzione Predittiva sta Trasformando il Settore Oil & Gas

La manutenzione predittiva sta rivoluzionando il settore dell'oil & gas, con un approccio innovativo e proattivo alla gestione degli impianti.…

22 Aprile 2024

Articoli

L’autorità antitrust del Regno Unito lancia l’allarme BigTech su GenAI

La CMA del Regno Unito ha lanciato un avvertimento circa il comportamento delle Big Tech sul mercato dell’intelligenza artificiale. La…

18 Aprile 2024

Comunicati Stampa

Casa Green: rivoluzione energetica per un futuro sostenibile in Italia

Il Decreto "Case Green", formulato dall'Unione Europea per potenziare l'efficienza energetica degli edifici, ha concluso il suo iter legislativo con…

18 Aprile 2024