Articoli

Privacy Loop: le intelligenze artificiali nel labirinto della Privacy e del Copyright

Questo è il primo di due articoli in cui affronto il delicato rapporto tra Privacy e Copyright da un lato, Intelligenze Artificiali dall’altro.

Un rapporto problematico dove l’evoluzione tecnologica si sta dimostrando talmente veloce da rendere ogni adeguamento normativo obsoleto già dalla sua prima applicazione.

Affrontare temi spinosi che coinvolgono i diritti delle persone e i dati personali richiede attenzione, competenza ed un indispensabile confronto tra intellettuali e specialisti del nostro tempo. Stiamo scoprendo di non essere abbastanza rapidi nell’adeguamento delle regole sociali alle sfide che ci pongono le innovazioni tecnologiche. Sempre più spesso le tecnologie emergenti si trovano ad operare in campo aperto, nell’assenza totale di norme che ne limitino l’applicazione, libere di fare danni e di farlo quindi nella totale impunità.

È ipotizzabile un controllo che risalga la catena dello sviluppo tecnologico fino alla ricerca scientifica ed i suoi obiettivi strategici ?

È pensabile governare l’evoluzione della nostra specie mantenendo saldo il rispetto delle libertà individuali ?

Privacy?

“Più cerchi di nasconderti e più attiri l’attenzione. Perché è così importante che nessuno sappia di te?” – dal film “Anon” scritto e diretto da Andrew Niccol – 2018

Nel film “Anon” del 2018 la società del futuro è un luogo cupo, sotto il controllo diretto di un gigantesco sistema informatico chiamato Ether, in grado di monitorare ogni angolo della nazione osservandola attraverso gli occhi delle stesse persone che la popolano. Ogni essere umano è un sorvegliante per conto di Ether e la sua prima responsabilità è, ovviamente, quella di monitorare sé stesso ed il proprio comportamento.

Ether è il migliore alleato dei corpi di polizia: gli agenti attraverso Ether possono risalire all’esperienza di qualsiasi persona rivivendola con i suoi stessi occhi e risolvere ogni tipo di crimine.

L’agente di polizia Sal s’interroga sui motivi per cui dovrebbe essere necessario lottare per difendere la propria privacy: a cosa serve quando non si ha alcun motivo per nascondersi? In fondo, in un’epoca in cui le tecnologie che costruiamo per aumentare la sicurezza delle nostre case e delle nostre strade obbligano alla registrazione, al monitoraggio e alla verifica di tali informazioni nell’interesse delle persone stesse che chiedono protezione, come possiamo pretendere di garantire la loro privacy?

Per dimostrare quanto sia pericoloso avere accesso alle vite degli altri, un hacker prenderà il controllo di Ether e sulla vita di milioni di persone calerà un terribile incubo: la minaccia di dover assistere da spettatori inermi alle immagini dei momenti più tormentati della propria vita, trasmesse direttamente nelle proprie retine.

The Loop

Le reti neurali artificiali che sottendono al funzionamento delle moderne intelligenze artificiali, ruotano attorno a tre elementi principali: informazioni di base altrimenti dette corpus, un algoritmo per l’assimilazione delle informazioni e una memoria per la loro memorizzazione.

L’algoritmo non si limita ad un banale caricamento delle informazioni nella memoria, esso lo scandaglia alla ricerca di elementi che le mettono in relazione tra loro. Nella memoria verrà trasferito un mix di dati e relazioni che andranno a formare un modello.

All’interno di un modello, i dati e le relazioni sono completamente indistinguibili, per questo motivo ricostruire il corpus delle informazioni di addestramento originali partendo da una rete neurale addestrata è quasi impossibile.

Questo vale in particolare quando i corpus contengono grandi quantità di dati. È il caso dei grandi sistemi linguistici noti come Large Language Models (in breve LLM) tra cui il famigerato ChatGpt. Essi devono la loro efficacia alla grande quantità di informazioni utilizzate l’addestramento: ad oggi un buon addestramento richiede almeno alcuni terabyte di dati e dato che un terabyte corrisponde a 90 miliardi di caratteri, a circa a 75 milioni di pagine di testo, è facile comprendere che le informazioni necessarie sono veramente tante.

Ma se i modelli non possono essere de-ingegnerizzati, perché dovremmo porci il problema della violazione della privacy?

Il predominio sui dati

“Chi è pazzo può chiedere di essere esentato dalle missioni di volo, ma chi chiede di essere esentato dalle missioni di volo non è pazzo.” – tratto dal romanzo “Comma 22” di Joseph Heller.

Articoli correlati
Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

La raccolta di dati di dimensioni tali da consentire la creazione di progetti come ChatGpt o altri simili è oggi appannaggio delle grandi aziende multinazionali che con le loro attività digitali hanno potuto mettere le mani nel più grande repository di informazioni del mondo: il Web.

Google e Microsoft, che da anni gestiscono motori di ricerca che scandagliano il Web e ne estrapolano enormi quantità di informazioni, sono i primi candidati alla creazione di LLM, i soli modelli di AI in grado di digerire quantità di informazioni come quelle descritte sopra.

È difficile credere che Google o Microsoft siano in grado di oscurare le informazioni personali presenti nei loro dati prima di utilizzarli come corpus nell’addestramento di una rete neurale. Anonimizzare le informazioni nel caso dei sistemi linguistici si traduce nell’identificazione di dati personali all’interno di un corpus e nella loro sostituzione con dati fake. Ipotizziamo un corpus delle dimensioni di alcuni terabyte con cui vogliamo addestrare un modello e proviamo ad immaginare quanto lavoro sarebbe necessario per anonimizzare manualmente i dati in esso contenuti: sarebbe praticamente impossibile. Ma se volessimo affidarci ad un algoritmo per farlo in maniera automatica, l’unico sistema in grado di effettuare questo lavoro sarebbe un altro modello altrettanto grande e sofisticato.

Siamo in presenza di un classico problema da Comma 22: “per addestrare un LLM con dati anonimizzati serve un LLM in grado di anonimizzarli, ma se abbiamo un LLM in grado di anonimizzare i dati, il suo addestramento non è stato fatto con dati anonimizzati.”

Il GDPR è obsoleto

Il GDPR che detta (quasi) globalmente le regole per il rispetto della privacy delle persone, alla luce di questi argomenti è già roba vecchia e la protezione dei dati personali coinvolti in un set di addestramento non è contemplato.

Nel GDPR, trattare i dati personali allo scopo di apprendere correlazioni e connessioni generali è solo parzialmente regolato dall’articolo 22 che recita: “L’interessato ha il diritto di non essere sottoposto a una decisione basata esclusivamente su trattamento automatizzato, compresa la profilazione, che produca effetti giuridici nei suoi confronti o che incida in modo analogo e significativo su di lui”.

Questo articolo introduce il divieto per i responsabili del trattamento ad utilizzare i dati personali di un soggetto nell’ambito di un processo decisionale completamente automatizzato che abbia effetti legali diretti sul soggetto stesso. Ma le reti neurali, facilmente assimilabili a processi decisionali automatizzati, una volta istruite acquisiscono la capacità di prendere decisioni automatiche che possono avere un impatto sulla vita delle persone. Ma queste decisioni non sono sempre “logiche”. Durante l’addestramento, infatti, ogni rete neurale impara ad associare tra di loro le informazioni, spesso mettendole in relazione tra loro in maniera assolutamente non lineare. E l’assenza di una “logicità” non semplifica il lavoro al legislatore che vuole alzare uno scudo in difesa della privacy delle persone.

Se altresì si scegliesse di applicare una politica estremamente restrittiva, ad esempio vietando l’utilizzo di ogni dato sensibile se non esplicitamente autorizzati dal proprietario, un utilizzo legale delle reti neurali sarebbe impraticabile. E rinunciare alle tecnologie delle reti neurali sarebbe una perdita importante, basti pensare ai modelli di analisi addestrati coi dati clinici dei soggetti di una popolazione su cui ha in parte inciso una particolare malattia. Questi modelli aiutano a migliorare le politiche di prevenzione identificando correlazioni tra gli elementi presenti dei dati e la malattia stessa, correlazioni inaspettate che agli occhi dei clinici possono apparire completamente illogiche.

Governare i bisogni

Porsi il problema del rispetto della privacy delle persone dopo averne autorizzato indiscriminatamente la raccolta per anni è quantomeno ipocrita. Lo stesso GDPR con la sua complessità è responsabile di numerose manipolazioni che consentono di raccogliere l’autorizzazione al trattamento dei dati personali sfruttando l’ambiguità delle clausole e la difficoltà di comprensione.

Serve certamente una semplificazione della norma che ne consenta l’applicabilità ed una vera educazione all’utilizzo consapevole delle informazioni personali.

La mia proposta è di non consentire alle aziende di conoscere i dati personali degli utenti che si registrano ai propri servizi, anche se si tratta di servizi a pagamento. L’utilizzo di dati personali fasulli da parte dei privati dovrebbe avvenire in maniera automatica quando usufruiscono dei sistemi online. L’utilizzo dei dati reali andrebbe confinato al solo processo di acquisto garantendo che sia sempre completamente separato dalla banca dati del servizio.

Conoscere i gusti e le preferenze del soggetto senza consentire di associare a questo profilo un nome o un volto, funzionerebbe come una forma di anonimizzazione effettuata a monte che consentirebbe automaticamente la raccolta dei dati ed il loro utilizzo nell’ambito dei sistemi di automazione come le intelligenze artificiali.

Articolo di Gianfranco Fedele

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Articoli recenti

Nasce Nim, l’Osservatorio del Nord-Est sull’economia dell’innovazione

Nasce l’Osservatorio del Nordest sull’economia dell’Innovazione Nim, (Numbers Innovation Motion) è un progetto di Galileo Visionary District realizzato in collaborazione…

7 Dicembre 2023

Innovazione del Content Marketing con Memory e Personality

ASKtoAI lancia le innovative funzionalità Memory e Personality, strumenti d'avanguardia per la creazione di contenuti digitali che promettono di migliorare…

6 Dicembre 2023

Discuss apre una nuova era di ricerca qualitativa con GenAI ampliata e innovazione asincrona

Discuss , la piattaforma leader appositamente creata per trasformare le esperienze in insight, ha potenziato le sue capacità di scalare la…

6 Dicembre 2023

Unwrapping Innovation: Blue Lake Packaging annuncia un’alternativa a base di fibra e priva di plastica al nastro e ai dispenser tradizionali

Con le festività che si avvicinano rapidamente, Blue Lake Packaging è entusiasta di offrire un'alternativa ecologica al nastro da imballaggio…

6 Dicembre 2023

Riepilogo del Netlogistik Innovation Day: trasformazione digitale della catena del freddo, innovazioni nel riciclaggio e leadership nella supply chain

Netlogistik , leader in potenti servizi che guidano le aziende verso la trasformazione digitale della catena di fornitura, ha recentemente tenuto…

6 Dicembre 2023

Lattice collabora con NVIDIA per accelerare l’IA edge

Annuncia una soluzione integrata che combina FPGA di Lattice a bassa potenza e bassa latenza con la piattaforma NVIDIA Orin…

6 Dicembre 2023

Evoluzione del tessile: il progetto TEPP della Taiwan Textile Federation ispira l’innovazione sostenibile oltre il 2023

Con un successo clamoroso, il Textile Export Promotion Project (TEPP), guidato dalla Taiwan Textile Federation nel 2023, ha messo in…

5 Dicembre 2023

Lattice continua la rapida espansione del portafoglio di prodotti che rende possibile la prossima era dell’innovazione

Lattice presenta i nuovi FPGA mid-range Lattice Avant-G e Lattice Avant-X, stack di soluzioni specifiche per le applicazioni ampliate e…

5 Dicembre 2023

Scopri di più sulla gestione della conoscenza e sull’innovazione per gli studi legali con un nuovo trattato scritto da esperti

Innovazione per i professionisti della gestione della conoscenza e dell'innovazione (KM&I). Nel settore legale è ora disponibile un riferimento completo…

5 Dicembre 2023

La Fondazione Eclipse lancia il gruppo di lavoro Eclipse Dataspace per promuovere l’innovazione globale nella condivisione affidabile dei dati

La Eclipse Foundation , una delle più grandi fondazioni di software open source al mondo, ha annunciato oggi la formazione dell'Eclipse…

5 Dicembre 2023