Artikuj

Privacy Loop: inteligjenca artificiale në labirintin e privatësisë dhe të autorit

Ky është i pari nga dy artikujt në të cilët trajtoj marrëdhënien delikate midis Privatësisë dhe të Drejtës së Autorit nga njëra anë dhe Inteligjencës Artificiale nga ana tjetër.

Një marrëdhënie problematike ku evolucioni teknologjik po rezulton të jetë aq i shpejtë sa që çdo rregullim rregullator të vjetërohet që nga aplikimi i tij i parë.

Trajtimi i çështjeve të mprehta që përfshijnë të drejtat e njerëzve dhe të dhënat personale kërkon vëmendje, kompetencë dhe një diskutim të domosdoshëm midis intelektualëve dhe specialistëve të kohës sonë. Po zbulojmë se nuk jemi mjaftueshëm të shpejtë në përshtatjen e rregullave sociale ndaj sfidave që na paraqesin risitë teknologjike. Teknologjitë në zhvillim e gjejnë veten gjithnjë e më shumë që veprojnë në fushë të hapur, në mungesë totale të rregulloreve që kufizojnë zbatimin e tyre, të lira për të shkaktuar dëme dhe për këtë arsye për ta bërë këtë pa u ndëshkuar totalisht.

A është e mundur të imagjinohet një kontroll që shkon prapa zinxhirit të zhvillimit teknologjik në kërkimin shkencor dhe objektivat e tij strategjikë?

A është e imagjinueshme të qeverisësh evolucionin e specieve tona duke ruajtur respektin e vendosur për liritë individuale?

Privatësia?

“Sa më shumë përpiqeni të fshiheni, aq më shumë tërhiqni vëmendjen. Pse është kaq e rëndësishme që askush të mos dijë për ju?” – nga filmi “Anon” me skenar dhe regji nga Andrew Niccol – 2018

Në film "pas pak“të vitit 2018, shoqëria e së ardhmes është një vend i errët, nën kontrollin e drejtpërdrejtë të një sistemi kompjuterik gjigant të quajtur Ether, i aftë për të monitoruar çdo cep të kombit duke e vëzhguar atë përmes syve të të njëjtëve njerëz që e popullojnë atë. Çdo qenie njerëzore është një mbikëqyrës në emër të Eterit dhe përgjegjësia e tyre e parë është, sigurisht, të monitorojnë veten dhe sjelljen e tyre.

Eteri është aleati më i mirë i forcave të policisë: përmes Etherit, agjentët mund të gjurmojnë përvojën e çdo personi duke e rijetuar atë me sytë e tyre dhe të zgjidhin çdo lloj krimi.

Oficeri i policisë Sal pyet veten pse duhet të luftoni për të mbrojtur privatësinë tuaj: çfarë kuptimi ka kur nuk keni arsye për t'u fshehur? Në fund të fundit, në një epokë në të cilën teknologjitë që ne ndërtojmë për të rritur sigurinë e shtëpive dhe rrugëve tona kërkojnë regjistrimin, monitorimin dhe verifikimin e një informacioni të tillë në interes të vetë njerëzve që kërkojnë mbrojtje, si mund të presim të garantojmë privatësinë e tyre?

Për të demonstruar se sa e rrezikshme është të kesh akses në jetët e të tjerëve, një haker do të marrë kontrollin e Etherit dhe një makth i tmerrshëm do të bjerë në jetët e miliona njerëzve: kërcënimi për të parë si spektatorë të pafuqishëm imazhet më të momente të torturuara të jetës së tyre, të transmetuara drejtpërdrejt në retinën e tyre.

Loop

Le rrjetet nervore artificiale të cilat qëndrojnë në themel të funksionimit të inteligjencës artificiale moderne, sillen rreth tre elementeve kryesore: informacionit bazë të quajtur ndryshe korpus, Një algorithm për asimilimin e informacionit dhe një kujtim për memorizimin e tyre.

Algoritmi nuk kufizohet në një ngarkim banal të informacionit në memorie, ai e skanon atë në kërkim të elementeve që i lidhin ato me njëri-tjetrin. Një përzierje e të dhënave dhe marrëdhënieve do të transferohet në memorie e cila do të formojë një model.

Brenda një modeli, të dhënat dhe marrëdhëniet janë krejtësisht të padallueshme, kjo është arsyeja pse rindërtimi i korpusit të informacionit origjinal të trajnimit nga një rrjet nervor i trajnuar është pothuajse i pamundur.

Kjo është veçanërisht e vërtetë kur korpuset përmbajnë sasi të mëdha të dhënash. Ky është rasti i sistemeve të mëdha gjuhësore të njohura si Large Language Models (shkurtimisht LLM) duke përfshirë ChatGpt famëkeq. Ata ia detyrojnë efektivitetin e tyre sasisë së madhe të informacionit të përdorur në trajnime: aktualisht trajnimi i mirë kërkon të paktën disa terabajt të dhëna dhe duke qenë se një terabajt korrespondon me 90 miliardë karaktere, afërsisht 75 milionë faqe tekst, është e lehtë të kuptohet se ekziston aq shumë informacione të nevojshme.

Por nëse modelet nuk mund të de-inxhinierohen, pse duhet t'i pyesim vetes problemin e shkeljeve të privatësisë?

Dominimi i të dhënave

“Kushdo që është i çmendur mund të kërkojë të përjashtohet nga misionet e fluturimit, por kushdo që kërkon të përjashtohet nga misionet e fluturimit nuk është i çmendur.” – bazuar në romanin “Catch 22” nga Joseph Heller.

Buletini i inovacionit
Mos humbisni lajmet më të rëndësishme mbi inovacionin. Regjistrohuni për t'i marrë ato me email.

Mbledhja e të dhënave të një madhësie të tillë që të lejojë krijimin e projekteve të tilla si ChatGpt apo të tjera të ngjashme është sot prerogativë e kompanive të mëdha shumëkombëshe, të cilat, me aktivitetet e tyre dixhitale, kanë mundur të kapin depon më të madhe të informacionit. në botë: Web.

Google dhe Microsoft, të cilët për vite me radhë kanë menaxhuar motorët e kërkimit që skanojnë Ueb-in dhe ekstrapolojnë sasi të mëdha informacioni, janë kandidatët e parë për krijimin e LLM, të vetmet modele të AI të aftë për të tretur sasi informacioni si ato të përshkruara më sipër.

Është e vështirë të besohet se Google ose Microsoft do të jenë në gjendje të fshehin informacionin personal në të dhënat e tyre përpara se ta përdorin atë si një korpus në trajnimin e një rrjeti nervor. Anonimizimi i informacionit në rastin e sistemeve gjuhësore përkthehet në identifikimin e të dhënave personale brenda një korpusi dhe zëvendësimin e tij me të dhëna të rreme. Le të imagjinojmë një korpus me madhësinë e disa terabajteve me të cilin duam të trajnojmë një model dhe le të përpiqemi të imagjinojmë se sa punë do të duhej për të anonimizuar manualisht të dhënat që përmban: do të ishte praktikisht e pamundur. Por nëse do të donim të mbështeteshim në një algoritëm për ta bërë atë automatikisht, i vetmi sistem i aftë për ta bërë këtë punë do të ishte një model tjetër po aq i madh dhe i sofistikuar.

Jemi në prani të një problemi klasik Catch-22: “për të trajnuar një LLM me të dhëna anonimizuara, ne kemi nevojë për një LLM të aftë për t'i anonimizuar ato, por nëse kemi një LLM të aftë për të anonimizuar të dhënat, trajnimi i tij nuk është bërë me të dhëna të anonimizuara. .”

GDPR është i vjetëruar

GDPR i cili dikton (pothuajse) globalisht rregullat për respektimin e privatësisë së njerëzve, në dritën e këtyre temave është tashmë një lajm i vjetër dhe mbrojtja e të dhënave personale të përfshira në një grup trajnimi nuk është menduar.

Në GDPR, përpunimi i të dhënave personale me qëllim të mësimit të korrelacioneve dhe lidhjeve të përgjithshme rregullohet vetëm pjesërisht nga neni 22 i cili thotë: “Subjekti i të dhënave ka të drejtë të mos i nënshtrohet një vendimi të bazuar vetëm në përpunimin e automatizuar, duke përfshirë profilizimin, i cili prodhon efekte juridike mbi të ose që e prek atë në mënyrë të ngjashme dhe domethënëse”.

Ky nen prezanton ndalimin që kontrollorët e të dhënave të përdorin të dhënat personale të një subjekti si pjesë e një procesi vendimmarrjeje plotësisht të automatizuar që ka efekte të drejtpërdrejta juridike mbi subjektin. Por rrjetet nervore, lehtësisht të asimilueshme me proceset e automatizuara të vendimmarrjes, pasi trajnohen fitojnë aftësinë për të marrë vendime automatike që mund të ndikojnë në jetën e njerëzve. Por këto vendime nuk janë gjithmonë "logjike". Gjatë trajnimit, në fakt, çdo rrjet nervor mëson të shoqërojë informacionin me njëri-tjetrin, shpesh duke i lidhur ato me njëri-tjetrin në një mënyrë absolutisht jolineare. Dhe mungesa e “logjikës” nuk ia lehtëson punën ligjvënësit që kërkon të ngrejë mburojë në mbrojtje të privatësisë së njerëzve.

Nëse dikush do të zgjidhte gjithashtu të zbatonte një politikë jashtëzakonisht kufizuese, për shembull ndalimin e përdorimit të çdo të dhënë të ndjeshme, përveç nëse autorizohet në mënyrë eksplicite nga pronari, përdorimi ligjor i rrjeteve neurale do të ishte i pamundur. Dhe heqja dorë nga teknologjitë e rrjeteve nervore do të ishte një humbje e madhe, vetëm mendoni për modelet e analizave të trajnuara me të dhënat klinike të subjekteve të një popullate që është prekur pjesërisht nga një sëmundje e caktuar. Këto modele ndihmojnë në përmirësimin e politikave parandaluese duke identifikuar korrelacionet midis elementëve të pranishëm në të dhëna dhe vetë sëmundjes, korrelacione të papritura të cilat në sytë e mjekëve klinik mund të duken krejtësisht të palogjikshme.

Menaxhimi i nevojave

Parashtrimi i problemit të respektimit të privatësisë së njerëzve, pasi autorizohet pa dallim grumbullimi i tij për vite me radhë, është të paktën hipokrite. Vetë GDPR me kompleksitetin e tij është përgjegjës për manipulime të shumta që lejojnë marrjen e autorizimit për përpunimin e të dhënave personale duke shfrytëzuar paqartësinë e klauzolave ​​dhe vështirësinë e të kuptuarit.

Sigurisht që ne kemi nevojë për një thjeshtësim të ligjit që lejon zbatueshmërinë e tij dhe një edukim real në përdorimin e ndërgjegjshëm të informacionit personal.

Propozimi im është që të mos lejohen kompanitë të dinë të dhënat personale të përdoruesve që regjistrohen për shërbimet e tyre, edhe nëse janë shërbime me pagesë. Përdorimi i të dhënave personale të rreme nga individë privatë duhet të ndodhë automatikisht kur ata përdorin sisteme online. Përdorimi i të dhënave reale duhet të kufizohet vetëm në procesin e blerjes, duke siguruar që ato të jenë gjithmonë plotësisht të ndara nga baza e të dhënave të shërbimit.

Njohja e shijeve dhe preferencave të subjektit pa lejuar që një emër apo fytyrë të lidhet me këtë profil do të funksiononte si një formë anonimizimi i kryer në rrjedhën e sipërme, i cili do të lejonte automatikisht mbledhjen e të dhënave dhe përdorimin e tyre brenda sistemeve të automatizimit si inteligjenca artificiale.

Neni i Gianfranco Fedele

Buletini i inovacionit
Mos humbisni lajmet më të rëndësishme mbi inovacionin. Regjistrohuni për t'i marrë ato me email.

Artikujt e fundit

E ardhmja është këtu: Si industria e transportit po revolucionarizon ekonominë globale

Sektori detar është një fuqi e vërtetë ekonomike globale, e cila ka lundruar drejt një tregu prej 150 miliardë...

1 Maj 2024

Botuesit dhe OpenAI nënshkruajnë marrëveshje për të rregulluar rrjedhën e informacionit të përpunuar nga Inteligjenca Artificiale

Të hënën e kaluar, Financial Times njoftoi një marrëveshje me OpenAI. FT licencon gazetarinë e saj të klasit botëror…

30 Prill 2024

Pagesat në internet: Ja se si shërbimet e transmetimit ju bëjnë të paguani përgjithmonë

Miliona njerëz paguajnë për shërbimet e transmetimit, duke paguar tarifat mujore të abonimit. Është e zakonshme që ju…

29 Prill 2024

Veeam përmban mbështetjen më të plotë për ransomware, nga mbrojtja te përgjigja dhe rikuperimi

Coveware nga Veeam do të vazhdojë të ofrojë shërbime të reagimit ndaj incidenteve të zhvatjes kibernetike. Coveware do të ofrojë aftësi mjeko-ligjore dhe riparimi…

23 Prill 2024