Artikelen

Privacy Loop: kunstmatige intelligentie in het labyrint van privacy en auteursrecht

Dit is het eerste van twee artikelen waarin ik inga op de delicate relatie tussen privacy en auteursrecht aan de ene kant, en kunstmatige intelligentie aan de andere kant.

Een problematische relatie waarbij de technologische evolutie zo snel blijkt te gaan dat elke aanpassing van de regelgeving vanaf de eerste toepassing overbodig is geworden.

Het aanpakken van netelige kwesties rond de rechten van mensen en persoonlijke gegevens vereist aandacht, competentie en een onmisbare discussie tussen intellectuelen en specialisten van onze tijd. We ontdekken dat we niet snel genoeg zijn in het aanpassen van sociale regels aan de uitdagingen die technologische innovaties ons stellen. Opkomende technologieën opereren steeds vaker in het open veld, bij totale afwezigheid van regelgeving die de toepassing ervan beperkt, en zijn vrij om schade te veroorzaken en dat dus geheel ongestraft te doen.

Is het mogelijk om een controle voor te stellen die teruggaat in de keten van technologische ontwikkeling tot aan het wetenschappelijk onderzoek en de strategische doelstellingen ervan?

Is het denkbaar om de evolutie van onze soort te regeren en tegelijkertijd een sterk respect voor de individuele vrijheden te behouden?

Privacy?

“Hoe meer je je probeert te verbergen, hoe meer je de aandacht trekt. Waarom is het zo belangrijk dat niemand iets over jou weet?” – uit de film “Anon”, geschreven en geregisseerd door Andrew Niccol – 2018

In de film "aanstonds” anno 2018 is de samenleving van de toekomst een donkere plek, onder de directe controle van een gigantisch computersysteem genaamd Ether, dat in staat is om elke hoek van het land in de gaten te houden door het te observeren door de ogen van dezelfde mensen die het bevolken. Ieder mens is een toezichthouder namens Ether en hun eerste verantwoordelijkheid is uiteraard het monitoren van zichzelf en hun gedrag.

Ether is de beste bondgenoot van de politie: via Ether kunnen agenten de ervaring van elke persoon traceren door deze met eigen ogen opnieuw te beleven en elk type misdaad op te lossen.

Politieagent Sal vraagt zich af waarom je moet vechten om je privacy te beschermen: wat heeft het voor zin als je geen reden hebt om je te verstoppen? Hoe kunnen we immers verwachten dat we, in een tijdperk waarin de technologieën die we bouwen om de veiligheid van onze huizen en straten te vergroten, het vastleggen, monitoren en verifiëren van dergelijke informatie vereisen in het belang van de mensen zelf die om bescherming vragen? hun privacy?

Om te laten zien hoe gevaarlijk het is om toegang te hebben tot de levens van anderen, zal een hacker de controle over Ether overnemen en zal er een vreselijke nachtmerrie over de levens van miljoenen mensen neerdalen: de dreiging om als hulpeloze toeschouwers naar de beelden te moeten kijken van de meest gekwelde momenten uit hun leven, rechtstreeks op hun netvlies uitgezonden.

The Loop

Le kunstmatige neurale netwerken die ten grondslag liggen aan het functioneren van moderne kunstmatige intelligenties, draaien rond drie hoofdelementen: basisinformatie, ook wel genoemd corpuseen algoritme voor de assimilatie van informatie en a geheugen voor hun memorisatie.

Het algoritme beperkt zich niet tot het banaal laden van informatie in het geheugen, het scant het op zoek naar elementen die deze met elkaar in verband brengen. Een mix van gegevens en relaties wordt overgebracht naar het geheugen, dat een model.

Binnen een model zijn gegevens en relaties volledig niet van elkaar te onderscheiden. Daarom is het vrijwel onmogelijk om het corpus van originele trainingsinformatie uit een getraind neuraal netwerk te reconstrueren.

Dit geldt vooral wanneer corpussen grote hoeveelheden gegevens bevatten. Dit is het geval bij de grote taalsystemen die bekend staan als Large Language Models (afgekort LLM) inclusief de beruchte ChatGpt. Ze danken hun doeltreffendheid aan de grote hoeveelheid informatie die bij trainingen wordt gebruikt: momenteel zijn voor goede trainingen op zijn minst enkele terabytes aan gegevens nodig, en aangezien één terabyte overeenkomt met 90 miljard tekens, ongeveer 75 miljoen pagina's tekst, is het gemakkelijk te begrijpen dat er zoveel informatie nodig.

Maar als modellen niet kunnen worden gede-engineerd, waarom zouden we ons dan het probleem van privacyschendingen afvragen?

Dominantie van data

“Wie gek is, kan vragen om vrijgesteld te worden van vliegmissies, maar wie vraagt om vrijgesteld te worden van vliegmissies is niet gek.” – gebaseerd op de roman “Catch 22” van Joseph Heller.

Innovatie nieuwsbrief
Mis het belangrijkste nieuws over innovatie niet. Meld u aan om ze per e-mail te ontvangen.

Het verzamelen van gegevens van een zodanige omvang dat projecten zoals ChatGpt of andere soortgelijke projecten kunnen worden opgezet, is tegenwoordig het voorrecht van grote multinationale bedrijven die met hun digitale activiteiten de grootste informatieopslagplaats in handen hebben weten te krijgen. in de wereld: het web.

Google en Microsoft, die al jaren zoekmachines beheren die het web scannen en enorme hoeveelheden informatie extrapoleren, zijn de eerste kandidaten voor de creatie van LLM, de enige AI-modellen die in staat zijn hoeveelheden informatie te verwerken zoals hierboven beschreven.

Het is moeilijk te geloven dat Google of Microsoft persoonlijke informatie in hun gegevens kunnen verbergen voordat ze deze als corpus gebruiken bij het trainen van een neuraal netwerk. Het anonimiseren van informatie vertaalt zich in het geval van taalsystemen in de identificatie van persoonlijke gegevens binnen een corpus en de vervanging ervan door valse gegevens. Laten we ons een corpus voorstellen ter grootte van een paar terabytes waarmee we een model willen trainen en laten we proberen ons voor te stellen hoeveel werk er nodig zou zijn om de gegevens die het bevat handmatig te anonimiseren: dat zou praktisch onmogelijk zijn. Maar als we zouden willen vertrouwen op een algoritme dat dit automatisch doet, zou het enige systeem dat deze taak kan uitvoeren een ander even groot en geavanceerd model zijn.

We hebben te maken met een klassiek Catch-22-probleem: “om een LLM te trainen met geanonimiseerde gegevens hebben we een LLM nodig die deze kan anonimiseren, maar als we een LLM hebben die de gegevens kan anonimiseren, is de training niet gedaan met geanonimiseerde gegevens .”

De AVG is verouderd

De AVG, die (bijna) mondiaal de regels dicteert voor het respecteren van de privacy van mensen, is in het licht van deze onderwerpen al oud nieuws en de bescherming van persoonsgegevens die betrokken zijn bij een trainingsset wordt niet overwogen.

In de AVG wordt de verwerking van persoonsgegevens met het oog op het leren van algemene verbanden en verbanden slechts gedeeltelijk geregeld door artikel 22, waarin staat: “De betrokkene heeft het recht om niet te worden onderworpen aan een besluit dat uitsluitend is gebaseerd op geautomatiseerde verwerking, inclusief profilering, dat voor hem rechtsgevolgen heeft of die hem op soortgelijke en significante wijze treft.”

Dit artikel introduceert het verbod voor verwerkingsverantwoordelijken om de persoonsgegevens van een betrokkene te gebruiken als onderdeel van een volledig geautomatiseerd besluitvormingsproces dat directe juridische gevolgen heeft voor de betrokkene. Maar neurale netwerken, die gemakkelijk te assimileren zijn met geautomatiseerde besluitvormingsprocessen, verwerven, zodra ze getraind zijn, het vermogen om automatische beslissingen te nemen die van invloed kunnen zijn op het leven van mensen. Maar deze beslissingen zijn niet altijd ‘logisch’. Tijdens de training leert elk neuraal netwerk informatie met elkaar te associëren, vaak op een absoluut niet-lineaire manier met elkaar in verband brengend. En de afwezigheid van ‘logica’ maakt het werk er niet gemakkelijker op voor de wetgever die een schild wil opsteken ter verdediging van de privacy van mensen.

Als men er ook voor zou kiezen om een uiterst restrictief beleid toe te passen, bijvoorbeeld door het gebruik van gevoelige gegevens te verbieden, tenzij uitdrukkelijk toegestaan door de eigenaar, zou legaal gebruik van neurale netwerken onuitvoerbaar zijn. En het opgeven van neurale netwerktechnologieën zou een groot verlies zijn, denk maar aan de analysemodellen die zijn getraind met de klinische gegevens van proefpersonen uit een populatie die gedeeltelijk door een bepaalde ziekte is getroffen. Deze modellen helpen het preventiebeleid te verbeteren door correlaties te identificeren tussen de elementen in de gegevens en de ziekte zelf; onverwachte correlaties die in de ogen van artsen volkomen onlogisch kunnen lijken.

Behoeften beheren

Het probleem stellen van het respecteren van de privacy van mensen nadat ze jarenlang zonder onderscheid toestemming hebben gegeven voor het verzamelen ervan, is op zijn zachtst gezegd hypocriet. De AVG zelf is met zijn complexiteit verantwoordelijk voor talloze manipulaties die het mogelijk maken toestemming te verkrijgen voor de verwerking van persoonsgegevens door gebruik te maken van de dubbelzinnigheid van de clausules en de moeilijkheid om deze te begrijpen.

We hebben zeker een vereenvoudiging van de wet nodig die de toepasbaarheid ervan mogelijk maakt, en een echte opleiding in het bewuste gebruik van persoonlijke informatie.

Mijn voorstel is om bedrijven niet toe te staan de persoonlijke gegevens te kennen van gebruikers die zich registreren voor hun diensten, ook al zijn het betaalde diensten. Het gebruik van valse persoonsgegevens door particulieren zou automatisch moeten gebeuren wanneer zij onlinesystemen gebruiken. Het gebruik van echte gegevens moet beperkt blijven tot het aankoopproces en ervoor zorgen dat dit altijd volledig gescheiden is van de servicedatabase.

Het kennen van de smaak en voorkeuren van het onderwerp zonder toe te staan dat een naam of gezicht aan dit profiel wordt gekoppeld, zou functioneren als een vorm van anonimisering die stroomopwaarts wordt uitgevoerd en die automatisch het verzamelen van gegevens en het gebruik ervan binnen automatiseringssystemen zoals kunstmatige intelligentie mogelijk zou maken.

Artikel di Gianfranco Fedele

Tags: chat gptauteursrechtGDPRgianfranco fedelegooglekunstmatige intelligentielarge language modelsLLMmicrosoftGeen mens in de lusprivacykunstmatige neurale netwerken

26 september 2023 12:56 uur

Na Neuralink begint met rekrutering voor de eerste klinische proef met hersenimplantaten bij mensen »

Vorig « Briljant idee: HUDWAY DRIVE, innovatie om u op de weg te concentreren

Recente artikelen

Artikelen

De toekomst is hier: hoe de scheepvaartindustrie een revolutie teweegbrengt in de wereldeconomie

De marinesector is een echte mondiale economische macht, die is genavigeerd naar een markt van 150 miljard...

1 mei 2024

Artikelen

Uitgevers en OpenAI ondertekenen overeenkomsten om de informatiestroom die door kunstmatige intelligentie wordt verwerkt, te reguleren

Afgelopen maandag maakte de Financial Times een deal met OpenAI bekend. FT geeft licenties voor haar journalistiek van wereldklasse...

April 30 2024

Artikelen

Online betalingen: hier is hoe streamingdiensten u voor altijd laten betalen

Miljoenen mensen betalen voor streamingdiensten en betalen maandelijkse abonnementskosten. De algemene mening is dat je…

April 29 2024

Persberichten

Veeam biedt de meest uitgebreide ondersteuning voor ransomware, van bescherming tot respons en herstel

Coveware by Veeam zal responsdiensten op het gebied van cyberafpersingsincidenten blijven leveren. Coveware zal forensische en herstelmogelijkheden bieden...

April 23 2024