Articoli

Privacy Loop: le intelligenze artificiali nel labirinto della Privacy e del Copyright

Questo è il primo di due articoli in cui affronto il delicato rapporto tra Privacy e Copyright da un lato, Intelligenze Artificiali dall’altro.

Un rapporto problematico dove l’evoluzione tecnologica si sta dimostrando talmente veloce da rendere ogni adeguamento normativo obsoleto già dalla sua prima applicazione.

Affrontare temi spinosi che coinvolgono i diritti delle persone e i dati personali richiede attenzione, competenza ed un indispensabile confronto tra intellettuali e specialisti del nostro tempo. Stiamo scoprendo di non essere abbastanza rapidi nell’adeguamento delle regole sociali alle sfide che ci pongono le innovazioni tecnologiche. Sempre più spesso le tecnologie emergenti si trovano ad operare in campo aperto, nell’assenza totale di norme che ne limitino l’applicazione, libere di fare danni e di farlo quindi nella totale impunità.

È ipotizzabile un controllo che risalga la catena dello sviluppo tecnologico fino alla ricerca scientifica ed i suoi obiettivi strategici ?

È pensabile governare l’evoluzione della nostra specie mantenendo saldo il rispetto delle libertà individuali ?

Privacy?

“Più cerchi di nasconderti e più attiri l’attenzione. Perché è così importante che nessuno sappia di te?” – dal film “Anon” scritto e diretto da Andrew Niccol – 2018

Nel film “Anon” del 2018 la società del futuro è un luogo cupo, sotto il controllo diretto di un gigantesco sistema informatico chiamato Ether, in grado di monitorare ogni angolo della nazione osservandola attraverso gli occhi delle stesse persone che la popolano. Ogni essere umano è un sorvegliante per conto di Ether e la sua prima responsabilità è, ovviamente, quella di monitorare sé stesso ed il proprio comportamento.

Ether è il migliore alleato dei corpi di polizia: gli agenti attraverso Ether possono risalire all’esperienza di qualsiasi persona rivivendola con i suoi stessi occhi e risolvere ogni tipo di crimine.

L’agente di polizia Sal s’interroga sui motivi per cui dovrebbe essere necessario lottare per difendere la propria privacy: a cosa serve quando non si ha alcun motivo per nascondersi? In fondo, in un’epoca in cui le tecnologie che costruiamo per aumentare la sicurezza delle nostre case e delle nostre strade obbligano alla registrazione, al monitoraggio e alla verifica di tali informazioni nell’interesse delle persone stesse che chiedono protezione, come possiamo pretendere di garantire la loro privacy?

Per dimostrare quanto sia pericoloso avere accesso alle vite degli altri, un hacker prenderà il controllo di Ether e sulla vita di milioni di persone calerà un terribile incubo: la minaccia di dover assistere da spettatori inermi alle immagini dei momenti più tormentati della propria vita, trasmesse direttamente nelle proprie retine.

The Loop

Le reti neurali artificiali che sottendono al funzionamento delle moderne intelligenze artificiali, ruotano attorno a tre elementi principali: informazioni di base altrimenti dette corpus, un algoritmo per l’assimilazione delle informazioni e una memoria per la loro memorizzazione.

L’algoritmo non si limita ad un banale caricamento delle informazioni nella memoria, esso lo scandaglia alla ricerca di elementi che le mettono in relazione tra loro. Nella memoria verrà trasferito un mix di dati e relazioni che andranno a formare un modello.

All’interno di un modello, i dati e le relazioni sono completamente indistinguibili, per questo motivo ricostruire il corpus delle informazioni di addestramento originali partendo da una rete neurale addestrata è quasi impossibile.

Questo vale in particolare quando i corpus contengono grandi quantità di dati. È il caso dei grandi sistemi linguistici noti come Large Language Models (in breve LLM) tra cui il famigerato ChatGpt. Essi devono la loro efficacia alla grande quantità di informazioni utilizzate l’addestramento: ad oggi un buon addestramento richiede almeno alcuni terabyte di dati e dato che un terabyte corrisponde a 90 miliardi di caratteri, a circa a 75 milioni di pagine di testo, è facile comprendere che le informazioni necessarie sono veramente tante.

Ma se i modelli non possono essere de-ingegnerizzati, perché dovremmo porci il problema della violazione della privacy?

Il predominio sui dati

“Chi è pazzo può chiedere di essere esentato dalle missioni di volo, ma chi chiede di essere esentato dalle missioni di volo non è pazzo.” – tratto dal romanzo “Comma 22” di Joseph Heller.

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

La raccolta di dati di dimensioni tali da consentire la creazione di progetti come ChatGpt o altri simili è oggi appannaggio delle grandi aziende multinazionali che con le loro attività digitali hanno potuto mettere le mani nel più grande repository di informazioni del mondo: il Web.

Google e Microsoft, che da anni gestiscono motori di ricerca che scandagliano il Web e ne estrapolano enormi quantità di informazioni, sono i primi candidati alla creazione di LLM, i soli modelli di AI in grado di digerire quantità di informazioni come quelle descritte sopra.

È difficile credere che Google o Microsoft siano in grado di oscurare le informazioni personali presenti nei loro dati prima di utilizzarli come corpus nell’addestramento di una rete neurale. Anonimizzare le informazioni nel caso dei sistemi linguistici si traduce nell’identificazione di dati personali all’interno di un corpus e nella loro sostituzione con dati fake. Ipotizziamo un corpus delle dimensioni di alcuni terabyte con cui vogliamo addestrare un modello e proviamo ad immaginare quanto lavoro sarebbe necessario per anonimizzare manualmente i dati in esso contenuti: sarebbe praticamente impossibile. Ma se volessimo affidarci ad un algoritmo per farlo in maniera automatica, l’unico sistema in grado di effettuare questo lavoro sarebbe un altro modello altrettanto grande e sofisticato.

Siamo in presenza di un classico problema da Comma 22: “per addestrare un LLM con dati anonimizzati serve un LLM in grado di anonimizzarli, ma se abbiamo un LLM in grado di anonimizzare i dati, il suo addestramento non è stato fatto con dati anonimizzati.”

Il GDPR è obsoleto

Il GDPR che detta (quasi) globalmente le regole per il rispetto della privacy delle persone, alla luce di questi argomenti è già roba vecchia e la protezione dei dati personali coinvolti in un set di addestramento non è contemplato.

Nel GDPR, trattare i dati personali allo scopo di apprendere correlazioni e connessioni generali è solo parzialmente regolato dall’articolo 22 che recita: “L’interessato ha il diritto di non essere sottoposto a una decisione basata esclusivamente su trattamento automatizzato, compresa la profilazione, che produca effetti giuridici nei suoi confronti o che incida in modo analogo e significativo su di lui”.

Questo articolo introduce il divieto per i responsabili del trattamento ad utilizzare i dati personali di un soggetto nell’ambito di un processo decisionale completamente automatizzato che abbia effetti legali diretti sul soggetto stesso. Ma le reti neurali, facilmente assimilabili a processi decisionali automatizzati, una volta istruite acquisiscono la capacità di prendere decisioni automatiche che possono avere un impatto sulla vita delle persone. Ma queste decisioni non sono sempre “logiche”. Durante l’addestramento, infatti, ogni rete neurale impara ad associare tra di loro le informazioni, spesso mettendole in relazione tra loro in maniera assolutamente non lineare. E l’assenza di una “logicità” non semplifica il lavoro al legislatore che vuole alzare uno scudo in difesa della privacy delle persone.

Se altresì si scegliesse di applicare una politica estremamente restrittiva, ad esempio vietando l’utilizzo di ogni dato sensibile se non esplicitamente autorizzati dal proprietario, un utilizzo legale delle reti neurali sarebbe impraticabile. E rinunciare alle tecnologie delle reti neurali sarebbe una perdita importante, basti pensare ai modelli di analisi addestrati coi dati clinici dei soggetti di una popolazione su cui ha in parte inciso una particolare malattia. Questi modelli aiutano a migliorare le politiche di prevenzione identificando correlazioni tra gli elementi presenti dei dati e la malattia stessa, correlazioni inaspettate che agli occhi dei clinici possono apparire completamente illogiche.

Governare i bisogni

Porsi il problema del rispetto della privacy delle persone dopo averne autorizzato indiscriminatamente la raccolta per anni è quantomeno ipocrita. Lo stesso GDPR con la sua complessità è responsabile di numerose manipolazioni che consentono di raccogliere l’autorizzazione al trattamento dei dati personali sfruttando l’ambiguità delle clausole e la difficoltà di comprensione.

Serve certamente una semplificazione della norma che ne consenta l’applicabilità ed una vera educazione all’utilizzo consapevole delle informazioni personali.

La mia proposta è di non consentire alle aziende di conoscere i dati personali degli utenti che si registrano ai propri servizi, anche se si tratta di servizi a pagamento. L’utilizzo di dati personali fasulli da parte dei privati dovrebbe avvenire in maniera automatica quando usufruiscono dei sistemi online. L’utilizzo dei dati reali andrebbe confinato al solo processo di acquisto garantendo che sia sempre completamente separato dalla banca dati del servizio.

Conoscere i gusti e le preferenze del soggetto senza consentire di associare a questo profilo un nome o un volto, funzionerebbe come una forma di anonimizzazione effettuata a monte che consentirebbe automaticamente la raccolta dei dati ed il loro utilizzo nell’ambito dei sistemi di automazione come le intelligenze artificiali.

Articolo di Gianfranco Fedele

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Articoli recenti

Come usare le visualizzazioni e il layout in PowerPoint

Microsoft PowerPoint fornisce diversi tipi di strumenti per rendere le presentazioni fruibili, interattive e adatte a diversi scopi. Gli strumenti…

20 Maggio 2024

Apprendimento automatico: confronto tra Random Forest e albero decisionale

Nel mondo del machine learning, sia gli algoritmi random forest che decision tree svolgono un ruolo fondamentale nella categorizzazione e…

17 Maggio 2024

Come migliorare le presentazioni Power Point, consigli utili

Esistono molti suggerimenti e trucchi per fare ottime presentazioni. L'obiettivo di queste regola è di migliorare l'efficacia, la scorrevolezza di…

16 Maggio 2024

È ancora la velocità la leva nello sviluppo dei prodotti, secondo il report di Protolabs

Pubblicato il rapporto "Protolabs Product Development Outlook". Esamina le modalità in cui oggi vengono portati i nuovi prodotti sul mercato.…

16 Maggio 2024

I quattro pilastri della Sostenibilità

Il termine sostenibilità è oramai molto usato per indicare programmi, iniziative e azioni finalizzate alla preservazione di una particolare risorsa.…

15 Maggio 2024

Come consolidare i dati in Excel

Una qualsiasi operazione aziendale produce moltissimi dati, anche in forme diverse. Inserire manualmente questi dati da un foglio Excel a…

14 Maggio 2024

Analisi trimestrale Cisco Talos: mail aziendali nel mirino dei criminali Manifatturiero, Istruzione e Sanità i settori più colpiti

La compromissione delle mail aziendali sono aumentate nei primi tre mesi del 2024 più del doppio rispetto all’ultimo trimestre del…

14 Maggio 2024

Principio di segregazione dell’interfaccia (ISP), quarto principio S.O.L.I.D.

Il principio di segregazione dell'interfaccia è uno dei cinque principi SOLID della progettazione orientata agli oggetti. Una classe dovrebbe avere…

14 Maggio 2024

Leggi Innovazione nella tua Lingua

Newsletter sull’Innovazione
Non perderti le notizie più importanti sull'Innovazione. Iscriviti per riceverle via e-mail.

Seguici