Cikkek

Adatvédelmi hurok: mesterséges intelligencia az adatvédelem és a szerzői jog labirintusában

Ez az első a két cikk közül, amelyekben egyrészt az adatvédelem és a szerzői jog, másrészt a mesterséges intelligencia kényes kapcsolatával foglalkozom.

Problémás kapcsolat, ahol a technológiai fejlődés olyan gyorsnak bizonyul, hogy minden szabályozási kiigazítást az első alkalmazástól kezdve elavulttá tesz.

Az emberek jogaival és személyes adataival kapcsolatos kényes kérdések kezelése odafigyelést, hozzáértést és nélkülözhetetlen vitát igényel korunk értelmisége és szakemberei között. Felfedezzük, hogy nem vagyunk elég gyorsak abban, hogy a társadalmi szabályokat a technológiai innovációk által számunkra jelentett kihívásokhoz igazítsuk. A feltörekvő technológiák egyre gyakrabban szabadon, az alkalmazásukat korlátozó szabályozások hiányában szabadon, így teljes büntetlenül kárt okozva működnek.

El lehet-e képzelni egy olyan irányítást, amely a technológiai fejlődés láncolatán visszamegy a tudományos kutatásig és annak stratégiai céljaiig?

Elképzelhető-e fajunk evolúciójának irányítása az egyéni szabadságjogok szilárd tiszteletben tartása mellett?

Magánélet?

„Minél többet próbálsz elrejtőzni, annál jobban felhívod magadra a figyelmet. Miért olyan fontos, hogy senki sem tud rólad?” – az Andrew Niccol által írt és rendezett „Anon” című filmből – 2018

A filmben "Mindjárt” 2018-ban a jövő társadalma egy sötét hely, az Ether nevű gigantikus számítógépes rendszer közvetlen irányítása alatt, amely képes a nemzet minden szegletét megfigyelni, ugyanazon emberek szemével, akik benépesítik. Minden ember felvigyázó az Ether nevében, és az első felelőssége természetesen az, hogy figyelemmel kísérje magát és viselkedését.

Az Ether a rendőri erők legjobb szövetségese: az Etheren keresztül az ügynökök nyomon követhetik bármely személy tapasztalatát, saját szemükkel újraélve azt, és bármilyen típusú bűncselekményt megoldhatnak.

Sal rendőr azon töpreng, miért kellene küzdenie magánéletének védelme érdekében: mi értelme van, ha nincs miért bujkálni? Hiszen egy olyan korszakban, amelyben az otthonaink és utcáink biztonságának növelésére épített technológiák megkövetelik az ilyen információk rögzítését, nyomon követését és ellenőrzését maguknak a védelmet kérő embereknek az érdekében, hogyan számíthatunk arra, a magánéletüket?

Hogy bemutassa, milyen veszélyes mások életéhez hozzáférni, egy hacker átveszi az irányítást Ether felett, és szörnyű rémálom csap le emberek millióira: az a fenyegetés, hogy tehetetlen nézőként kell nézniük a legtöbb ember képeit. életük meggyötört pillanatait, közvetlenül a retinájukba sugározva.

A hurok

Le mesterséges idegi hálózat amelyek a modern mesterséges intelligenciák működésének hátterében állnak, három fő elem körül forognak: az alapvető információk más néven testegy algoritmus az információ asszimilációjához és a emlékezet memorizálásukra.

Az algoritmus nem korlátozódik az információ banális betöltésére a memóriába, hanem átvizsgálja azokat az egymáshoz kapcsolódó elemeket keresve. Adatok és kapcsolatok keveréke kerül át a memóriába, amely a Modello.

Egy modellen belül az adatok és a kapcsolatok teljesen megkülönböztethetetlenek, ezért az eredeti képzési információ korpuszának rekonstrukciója egy betanított neurális hálózatból szinte lehetetlen.

Ez különösen igaz, ha a korpuszok nagy mennyiségű adatot tartalmaznak. Ez a helyzet az úgynevezett nagy nyelvi rendszerek esetében Large Language Models (röviden LLM), beleértve a hírhedt ChatGpt. Hatékonyságukat a képzés során felhasznált nagy mennyiségű információnak köszönhetik: jelenleg egy jó képzéshez legalább néhány terabájt adatra van szükség, és mivel egy terabájt 90 milliárd karakternek, körülbelül 75 millió oldalnyi szövegnek felel meg, könnyen érthető, hogy annyi információra van szükség.

De ha a modelleket nem lehet kifejleszteni, miért tegyük fel magunknak a magánélet megsértésének problémáját?

Adatdominancia

„Aki őrült, kérheti felmentését a repülési küldetések alól, de aki felmentést kér a repülési küldetések alól, az nem őrült.” – Joseph Heller „Catch 22” című regénye alapján.

Innovációs hírlevél
Ne maradjon le az innovációval kapcsolatos legfontosabb hírekről. Regisztráljon, hogy megkapja őket e-mailben.

Az olyan méretű adatgyűjtés, amely lehetővé teszi a ChatGpt-hez vagy más hasonló projektekhez hasonló projektek létrehozását, ma a nagy multinacionális cégek kiváltsága, amelyek digitális tevékenységükkel a legnagyobb információs tárházat tudták megszerezni. a világban: a Web.

A Google és a Microsoft, amelyek évek óta menedzseltek olyan keresőmotorokat, amelyek az internetet szkennelik és hatalmas mennyiségű információt extrapolálnak, az első jelöltek az LLM létrehozására, amely az egyetlen mesterséges intelligencia modell, amely képes megemészteni a fent leírtakhoz hasonló mennyiségű információt.

Nehéz elhinni, hogy a Google vagy a Microsoft képes lenne elfedni az adataiban szereplő személyes információkat, mielőtt azokat korpuszként használnák fel egy neurális hálózat képzésében. Az információ anonimizálása nyelvi rendszerek esetében a személyes adatok korpuszon belüli azonosítását és hamis adatokkal való helyettesítését jelenti. Képzeljünk el egy néhány terabájt méretű korpuszt, amellyel egy modellt szeretnénk betanítani, és próbáljuk meg elképzelni, hogy mennyi munkára lenne szükség a benne lévő adatok manuális anonimizálásához: ez gyakorlatilag lehetetlen lenne. De ha egy algoritmusra akarnánk hagyatkozni, hogy ezt automatikusan elvégezze, az egyetlen rendszer, amely képes lenne ezt a feladatot elvégezni, egy másik, hasonlóan nagy és kifinomult modell lenne.

Egy klasszikus Catch-22 probléma előtt állunk: „Anonimizált adatokkal rendelkező LLM képzéséhez szükségünk van egy anonimizálásra képes LLM-re, de ha van olyan LLM-ünk, amely képes az adatok anonimizálására, akkor annak betanítása nem anonim adatokkal történt. .”

A GDPR elavult

A GDPR, amely (majdnem) globálisan diktálja az emberek magánéletének tiszteletben tartásának szabályait, e témák tükrében már régi hír, és a tréningsorozatban szereplő személyes adatok védelme nem jöhet szóba.

A GDPR-ban a személyes adatok általános összefüggések és összefüggések megismerése céljából történő feldolgozását csak részben szabályozza a 22. cikk, amely kimondja: „Az érintettnek joga van ahhoz, hogy ne vonatkozzon rá olyan döntés, amely kizárólag automatizált adatkezelésen – ideértve a profilalkotást is – alapul, joghatást vált ki rá, vagy amely őt hasonló és jelentős mértékben érinti."

Ez a cikk bevezeti azt a tilalmat, hogy az adatkezelők az érintett személyes adatait olyan teljesen automatizált döntéshozatali folyamat részeként használják fel, amely közvetlen joghatással jár az érintettre nézve. Ám az automatizált döntéshozatali folyamatokhoz könnyen asszimilálható neurális hálózatok, miután betanították őket, képesek lesznek olyan automatikus döntéseket hozni, amelyek hatással lehetnek az emberek életére. De ezek a döntések nem mindig „logikusak”. Valójában a képzés során az egyes neurális hálózatok megtanulják az információkat egymáshoz társítani, gyakran abszolút nem lineárisan kapcsolva azokat egymáshoz. A „logika” hiánya pedig nem könnyíti meg a jogalkotó dolgát, aki pajzsot akar emelni az emberek magánéletének védelmében.

Ha valaki egy rendkívül korlátozó politikát is alkalmaz, például megtiltja az érzékeny adatok használatát, kivéve, ha a tulajdonos kifejezetten engedélyezi, a neurális hálózatok törvényes használata kivitelezhetetlen lenne. A neurális hálózati technológiák feladása pedig nagy veszteség lenne, gondoljunk csak azokra az elemzési modellekre, amelyeket egy bizonyos betegség által részben érintett populáció alanyainak klinikai adataival képeztek ki. Ezek a modellek az adatokban jelenlévő elemek és maga a betegség közötti összefüggések azonosításával segítik a megelőzési politikák fejlesztését, a váratlan összefüggéseket, amelyek a klinikusok szemében teljesen logikátlannak tűnhetnek.

Az igények kezelése

Az emberek magánéletének tiszteletben tartásának problémáját felvetni, miután évekig válogatás nélkül engedélyezték a gyűjtést, enyhén szólva képmutató. Maga a GDPR a maga összetettségével számos olyan manipulációért felelős, amelyek lehetővé teszik a személyes adatok feldolgozására vonatkozó engedély megszerzését, kihasználva a záradékok kétértelműségét és a megértés nehézségeit.

Mindenképpen szükségünk van az alkalmazhatóságát lehetővé tevő törvény egyszerűsítésére és a személyes adatok tudatos felhasználására való valódi oktatásra.

Javaslatom, hogy a cégek ne ismerjék meg a szolgáltatásaikra regisztráló felhasználók személyes adatait, még akkor sem, ha fizetős szolgáltatásokról van szó. A hamis személyes adatok magánszemélyek általi felhasználásának automatikusan meg kell történnie, amikor online rendszereket használnak. A valós adatok felhasználását kizárólag a vásárlási folyamatra kell korlátozni, biztosítva, hogy az mindig teljesen elkülönüljön a szolgáltatási adatbázistól.

Az alany ízlésének és preferenciáinak ismerete anélkül, hogy név vagy arc társítható lenne ehhez a profilhoz, az anonimizálás egy formájaként működne, amelyet felfelé hajtanak végre, amely automatikusan lehetővé tenné az adatok gyűjtését és felhasználását automatizálási rendszereken, például mesterséges intelligenciákon belül.

Cikke Gianfranco Fedele