Artikelen

Privatsphär Loop: kënschtlech Intelligenz am Labyrinth vu Privatsphär an Copyright

Dëst ass den éischten vun zwee Artikelen an deenen ech déi delikat Relatioun tëscht Privatsphär an Copyright op der enger Säit, a Kënschtlech Intelligenz op der anerer Säit adresséieren.

Eng problematesch Relatioun wou d'technologesch Evolutioun sou séier beweist datt all reglementaresch Upassung ab senger éischter Uwendung obsolet ass.

D’Bewäertung vun stäerkste Problemer mat de Mënscherechter a perséinlechen Donnéeën erfuerdert Opmierksamkeet, Kompetenz an eng onverzichtbar Diskussioun tëscht Intellektuellen a Spezialisten vun eiser Zäit. Mir entdecken datt mir net séier genuch sinn fir d'sozial Regelen un d'Erausfuerderungen unzepassen, déi technologesch Innovatiounen eis stellen. Entstanen Technologien fannen sech ëmmer méi am oppenen Terrain operéieren, an der totaler Verontreiung vu Reglementer déi hir Uwendung limitéieren, fräi fir Schued ze verursaachen an dofir mat totaler Impunitéit ze maachen.

Ass et méiglech eng Kontroll virzestellen déi d'Kette vun der technologescher Entwécklung op d'wëssenschaftlech Fuerschung an hir strategesch Ziler zréckgeet?

Ass et denkbar, d'Evolutioun vun eiser Spezies ze regéieren, a gläichzäiteg e festen Respekt fir individuell Fräiheeten ze halen?

Privatsphär?

"Wat Dir méi probéiert ze verstoppen, wat Dir méi opmierksam mécht. Firwat ass et sou wichteg datt keen iwwer dech weess?" - aus dem Film "Anon" geschriwwen a regéiert vum Andrew Niccol - 2018

Am Film "ANON" vun 2018 ass d'Gesellschaft vun der Zukunft eng donkel Plaz, ënner der direkter Kontroll vun engem giganteschen Computersystem mam Numm Ether, fäeg fir all Eck vun der Natioun ze iwwerwaachen andeems se se duerch d'Ae vun deene selwechte Leit beobachten, déi se populéieren. All Mënsch ass en Iwwerwaacher am Numm vun Ether an hir éischt Verantwortung ass natierlech fir sech selwer an hiert Verhalen ze iwwerwaachen.

Ether ass dee beschten Alliéierten vun de Policekräften: duerch Ether kënnen d'Agenten d'Erfahrung vun all Persoun verfollegen andeems se se mat hiren eegenen Aen erliewen an all Zort vu Verbriechen léisen.

De Polizist Sal freet sech firwat Dir sollt kämpfen fir Är Privatsphär ze schützen: Wat ass de Punkt wann Dir kee Grond hutt ze verstoppen? Iwwerhaapt, an enger Ära, an där d'Technologien, déi mir bauen fir d'Sécherheet vun eisen Haiser an eise Stroossen ze erhéigen, d'Opnam, d'Iwwerwaachung an d'Verifizéierung vun esou Informatioune verlaangen am Interessi vun de Leit selwer, déi ëm Schutz froen, wéi kënne mir erwaarden datt mir garantéieren hir Privatsphär?

Fir ze weisen wéi geféierlech et ass Zougang zum Liewen vun aneren ze hunn, wäert en Hacker d'Kontroll iwwer Ether iwwerhuelen an e schrecklechen Albtraum wäert op d'Liewe vu Millioune Leit erofkommen: d'Drohung fir als hëlleflos Zuschauer d'Biller vun de meeschten ze kucken. gefoltert Momenter vun hirem Liewen, direkt an hir Netzhaut iwwerdroen.

The Loop

Le kënschtlech neural Netzwierker déi de Fonctionnement vun moderner kënschtlecher Intelligenz ënnersträichen, dréien ëm dräi Haaptelementer: Basisinformatioun soss genannt Corpus, un Algorithmus fir d'Assimilatioun vun Informatiounen an eng Erënnerung fir hir Erënnerung.

Den Algorithmus ass net limitéiert op eng banal Luede vun Informatioun an d'Erënnerung, et scannt et op der Sich no Elementer déi se matenee bezéien. Eng Mëschung vun Daten a Bezéiungen gëtt an d'Erënnerung transferéiert, déi e bilden modello.

Bannent engem Modell sinn Donnéeën a Relatiounen komplett onënnerscheedbar, dofir ass d'Rekonstruktioun vum Corpus vun origineller Trainingsinformatioun aus engem trainéierten neurale Netzwierk bal onméiglech.

Dëst ass besonnesch wouer wann Korpus grouss Quantitéiten un Daten enthalen. Dëst ass de Fall vun de grousse sproochleche Systemer bekannt als Large Language Models (LLM fir kuerz) dorënner de berühmte ChatGpt. Si verdanken hir Effizienz un der grousser Quantitéit un Informatioun, déi am Training benotzt gëtt: Momentan erfuerdert gutt Training op d'mannst e puer Terabyte un Daten a well een Terabyte entsprécht 90 Milliarden Zeechen, ongeféier 75 Millioune Säiten Text, ass et einfach ze verstoen datt et ass sou vill Informatioun néideg.

Awer wann d'Modeller net de-engineéiert kënne ginn, firwat sollte mir eis de Problem vu Privatsphärverletzungen froen?

Donnéeën Dominanz

"Wien verréckt ass, ka froe vu Fluchmissiounen befreit ze ginn, awer wien freet, vu Fluchmissiounen befreit ze ginn ass net verréckt." - baséiert op dem Roman "Catch 22" vum Joseph Heller.

Innovatioun Newsletter
Verpasst net déi wichtegst Neiegkeeten iwwer Innovatioun. Registréiert Iech fir se per E-Mail ze kréien.

D'Sammlung vun Donnéeën vun esou enger Gréisst datt d'Schafe vu Projete wéi ChatGpt oder aner ähnlechen erlaabt ass haut d'Prerogativ vu grousse multinationale Firmen, déi mat hiren digitalen Aktivitéiten de gréisste Repository vun Informatioun an d'Hänn kréien an der Welt: de Web.

Google a Microsoft, déi zënter Joeren Sichmotore geréiert hunn, déi de Web scannen an enorm Informatiounsquantitéiten extrapoléieren, sinn déi éischt Kandidate fir d'Schafe vum LLM, déi eenzeg AI Modeller déi fäeg sinn Informatiounsquantitéiten ze verdauen wéi déi hei uewen beschriwwen.

Et ass schwéier ze gleewen datt Google oder Microsoft fäeg sinn perséinlech Informatioun an hiren Donnéeën ze verstoppen ier se se als Corpus benotzt fir en neuralt Netzwierk ze trainéieren. Anonymiséierend Informatioun am Fall vu sproochleche Systemer iwwersetzt an d'Identifikatioun vu perséinlechen Donnéeën an engem Corpus a seng Ersatz duerch gefälschte Donnéeën. Stellt eis e Corpus der Gréisst vun e puer Terabytes vir, mat deem mir e Modell trainéiere wëllen a loosse mer probéieren eis virzestellen, wéi vill Aarbecht néideg wier fir d'Daten manuell ze anonymiséieren: et wier praktesch onméiglech. Awer wa mir op en Algorithmus wëlle vertrauen fir et automatesch ze maachen, ass deen eenzege System deen fäeg ass dës Aarbecht ze maachen en anert gläich grousst a raffinéiert Modell.

Mir sinn an der Präsenz vun engem klassesche Catch-22 Problem: "Fir en LLM mat anonymiséierten Donnéeën ze trainéieren brauche mir en LLM deen et fäeg ass ze anonymiséieren, awer wa mir en LLM hunn deen d'Donnéeën anonymiséiert, ass seng Training net mat anonymiséierten Donnéeën gemaach. ."

De GDPR ass veroudert

De GDPR deen (bal) weltwäit d'Regele fir d'Privatsphär vun de Leit diktéiert, am Liicht vun dësen Themen ass schonn al Neiegkeeten an de Schutz vu perséinlechen Donnéeën, déi an engem Trainingsset involvéiert sinn, gëtt net iwwerluecht.

Am GDPR ass d'Veraarbechtung vu perséinlechen Donnéeën fir allgemeng Korrelatiounen a Verbindungen ze léieren nëmmen deelweis vum Artikel 22 geregelt, dee seet: "Den Dateschutz huet d'Recht net un enger Entscheedung ënnerworf ze ginn, déi nëmmen op automatiséierter Veraarbechtung baséiert, dorënner Profiléierung, déi juristesch Effekter op hien produzéiert oder déi hien op eng ähnlech a bedeitend Manéier beaflosst".

Dësen Artikel stellt d'Verbuet fir Datekontroller vir, d'perséinlech Donnéeën vun engem Sujet als Deel vun engem voll automatiséierten Entscheedungsprozess ze benotzen, deen direkt juristesch Auswierkungen op d'Thema huet. Awer neural Netzwierker, liicht assimiléierbar fir automatiséiert Entscheedungsprozesser, kréien eemol trainéiert d'Fäegkeet fir automatesch Entscheedungen ze treffen déi d'Liewe vun de Leit beaflosse kënnen. Awer dës Entscheedungen sinn net ëmmer "logesch". Wärend der Ausbildung léiert tatsächlech all neuralt Netzwierk Informatiounen mateneen ze associéieren, dacks op eng absolut net-linear Manéier matenee verbonnen. An d'Feele vu "Logik" mécht d'Aarbecht net méi einfach fir de Gesetzgeber, deen e Schëld fir d'Privatsphär vun de Leit ophiewen wëll.

Wann een och gewielt huet eng extrem restriktiv Politik ze gëllen, zum Beispill d'Benotzung vun all sensiblen Donnéeën ze verbidden, ausser explizit vum Besëtzer autoriséiert, wier legal Notzung vun neurale Netzwierker onpraktesch. A opginn vun neuralen Netzwierktechnologien wier e grousse Verloscht, denkt just un d'Analysemodeller, déi mat de klineschen Daten vun de Sujete vun enger Populatioun trainéiert sinn, déi deelweis vun enger bestëmmter Krankheet betraff sinn. Dës Modeller hëllefen d'Préventiounspolitik ze verbesseren andeems d'Korrelatiounen tëscht den Elementer, déi an den Donnéeën präsent sinn, an der Krankheet selwer z'identifizéieren, onerwaart Korrelatiounen, déi an den Ae vun de Kliniker komplett onlogesch ausgesinn.

Bedierfnesser managen

De Problem ze stellen fir d'Privatsphär vun de Leit ze respektéieren nodeems se jorelaang hir Sammlung ondifferenzéiert autoriséiert hunn ass hypokritesch fir d'mannst ze soen. De GDPR selwer mat senger Komplexitéit ass verantwortlech fir vill Manipulatiounen, déi et erlaben d'Autorisatioun ze kréien fir perséinlech Donnéeën ze verarbeiten andeems se d'Ambiguitéit vun de Klauselen an d'Schwieregkeet vum Verständnis ausnotzen.

Mir brauche sécherlech eng Vereinfachung vum Gesetz, déi seng Uwendbarkeet erlaabt an eng real Ausbildung an der bewosst Notzung vu perséinlechen Informatioun.

Meng Propositioun ass et net fir Firmen ze erlaben d'perséinlech Donnéeë vu Benotzer ze kennen déi sech fir hir Servicer registréieren, och wa se bezuelte Servicer sinn. D'Benotzung vu gefälschte perséinlechen Donnéeë vu Privatleit soll automatesch geschéien wann se online Systemer benotzen. D'Benotzung vun realen Donnéeën soll eleng op de Kafprozess ageschränkt sinn, fir datt se ëmmer komplett getrennt vun der Servicedatenbank ass.

De Goût an de Virléiften vum Thema ze kennen ouni datt en Numm oder Gesiicht mat dësem Profil verbonne sinn, géif als eng Form vun Anonymiséierung funktionnéieren, déi upstream duerchgefouert gëtt, déi automatesch d'Sammlung vun Daten an hir Notzung bannent Automatisatiounssystemer wéi kënschtlech Intelligenz erlaabt.

Artikel vum Gianfranco Fedele