Ihmisten oikeuksiin ja henkilötietoihin liittyvien vaikeiden asioiden käsitteleminen vaatii huomiota, osaamista ja korvaamatonta keskustelua aikamme älymystöjen ja asiantuntijoiden välillä. Olemme havainneet, ettemme ole tarpeeksi nopeita mukauttaessamme sosiaalisia sääntöjä teknisten innovaatioiden meille asettamiin haasteisiin. Uudet teknologiat toimivat yhä useammin avoimella kentällä niiden soveltamista rajoittavien säännösten puuttuessa ja aiheuttavat vapaasti vahinkoa ja tekevät sen siten täysin rankaisematta.
Onko mahdollista kuvitella ohjausta, joka palaa teknologian kehityksen ketjussa tieteelliseen tutkimukseen ja sen strategisiin tavoitteisiin?
Onko mahdollista hallita lajimme kehitystä samalla kun kunnioitetaan lujasti yksilönvapauksia?
”Mitä enemmän yrität piiloutua, sitä enemmän kiinnität huomiota. Miksi on niin tärkeää, ettei kukaan tiedä sinusta?" – elokuvasta ”Anon”, jonka on kirjoittanut ja ohjannut Andrew Niccol – 2018
Elokuvassa "Pian” 2018, tulevaisuuden yhteiskunta on pimeä paikka, Ether-nimisen jättimäisen tietokonejärjestelmän suorassa ohjauksessa, joka pystyy valvomaan kansakunnan jokaista kolkkaa tarkkailemalla sitä samojen ihmisten silmin, jotka sen asuttavat. Jokainen ihminen on Etherin valvoja, ja hänen ensimmäinen velvollisuutensa on tietysti seurata itseään ja käyttäytymistään.
Ether on poliisivoimien paras liittolainen: Etherin kautta agentit voivat jäljittää kenen tahansa kokemuksen kokemalla sen uudelleen omin silmin ja ratkaista kaiken tyyppisiä rikoksia.
Poliisi Sal ihmettelee, miksi sinun pitäisi taistella yksityisyytesi turvaamiseksi: mitä järkeä on, kun sinulla ei ole mitään syytä piiloutua? Loppujen lopuksi aikakaudella, jolloin teknologiat, joita rakennamme lisäämään kotiemme ja katujemme turvallisuutta, edellyttävät tällaisten tietojen tallentamista, seurantaa ja todentamista suojelua pyytävien ihmisten itsensä edun vuoksi, miten voimme taata heidän yksityisyytensä?
Osoittaakseen, kuinka vaarallista on päästä käsiksi muiden elämään, hakkeri ottaa Etherin hallintaansa ja kauhea painajainen laskeutuu miljoonien ihmisten elämään: uhka, että joudutaan katsomaan avuttomina katsojina kaikkein eniten kuvia. elämänsä piinattuja hetkiä, jotka lähetetään suoraan heidän verkkokalvoonsa.
Le keinotekoiset neuroverkot jotka ovat nykyaikaisten tekoälyjen toiminnan taustalla, pyörivät kolmen pääelementin ympärillä: perusinformaation ympärillä corpus, joka on algoritmi tiedon ja yhden muisti niiden ulkoa ottamista varten.
Algoritmi ei rajoitu banaaliseen tiedon lataamiseen muistiin, se skannaa sen etsiessään elementtejä, jotka liittyvät toisiinsa. Sekoitus dataa ja suhteita siirretään muistiin, joka muodostaa a malli.
Mallin sisällä data ja suhteet ovat täysin erottamattomia, minkä vuoksi alkuperäisen harjoitusinformaation korpuksen rekonstruoiminen koulutetusta hermoverkosta on lähes mahdotonta.
Tämä pätee erityisesti silloin, kun korpusissa on suuria määriä dataa. Tämä koskee suuria kielijärjestelmiä, jotka tunnetaan nimellä Large Language Models (lyhyesti LLM), mukaan lukien pahamaineinen ChatGpt. Niiden tehokkuus johtuu koulutuksessa käytetystä suuresta tietomäärästä: tällä hetkellä hyvä koulutus vaatii vähintään muutaman teratavun dataa ja koska yksi teratavu vastaa 90 miljardia merkkiä, noin 75 miljoonaa sivua tekstiä, on helppo ymmärtää, että niin paljon tietoa tarvitaan.
Mutta jos malleja ei voida muuttaa, miksi meidän pitäisi kysyä itseltämme yksityisyyden loukkausten ongelmaa?
"Joka on hullu, voi pyytää vapautusta lentotehtävistä, mutta se, joka pyytää vapautusta lentotehtävistä, ei ole hullu." – perustuu Joseph Hellerin romaaniin "Catch 22".
Sen kokoisen tiedon kerääminen, että se mahdollistaa ChatGpt:n tai muiden vastaavien projektien luomisen, on nykyään suurten monikansallisten yritysten etuoikeus, jotka ovat digitaalisella toiminnallaan päässeet käsiinsä laajimpaan tietovarastoon. maailmassa: Web.
Google ja Microsoft, jotka ovat jo vuosia johtaneet hakukoneita, jotka skannaavat verkkoa ja ekstrapoloivat valtavia määriä tietoa, ovat ensimmäiset ehdokkaat LLM:n luomiseen, ainoihin tekoälymalleja, jotka pystyvät sulattamaan edellä kuvatun kaltaisia tietoja.
On vaikea uskoa, että Google tai Microsoft kykenisivät peittämään tiedoissaan olevat henkilötiedot ennen kuin käyttäisivät niitä korpuksena neuroverkon koulutuksessa. Tietojen anonymisoiminen kielijärjestelmissä tarkoittaa henkilötietojen tunnistamista korpuksen sisällä ja niiden korvaamista väärennetyillä tiedoilla. Kuvitellaanpa muutaman teratavun kokoinen korpus, jolla haluamme kouluttaa mallia, ja yritetään kuvitella kuinka paljon työtä sen sisältämien tietojen anonymisoiminen manuaalisesti vaatisi: se olisi käytännössä mahdotonta. Mutta jos haluaisimme luottaa siihen, että algoritmi tekee sen automaattisesti, ainoa järjestelmä, joka pystyy tekemään tämän työn, olisi toinen yhtä suuri ja hienostunut malli.
Olemme klassisen Catch-22-ongelman edessä: "kouluttaaksemme LLM:n anonymisoidulla tiedolla tarvitsemme LLM:n, joka pystyy anonymisoimaan sen, mutta jos meillä on LLM, joka pystyy anonymisoimaan tiedot, sen koulutusta ei tehty anonymisoiduilla tiedoilla. . ”
GDPR, joka sanelee (melkein) maailmanlaajuisesti säännöt ihmisten yksityisyyden kunnioittamiselle, on näiden aiheiden valossa jo vanha uutinen, eikä koulutussarjaan liittyvien henkilötietojen suojaa ole ajateltu.
GDPR:ssä henkilötietojen käsittelyä yleisten korrelaatioiden ja yhteyksien oppimiseksi säätelee vain osittain 22 artikla, jossa todetaan: ”Rekisteröidyllä on oikeus olla joutumatta yksinomaan automatisoituun käsittelyyn, mukaan lukien profilointiin, perustuvaan päätökseen, joka aiheuttaa häneen oikeusvaikutuksia tai joka vaikuttaa häneen samalla tavalla ja merkittävällä tavalla."
Tässä artiklassa kielletään rekisterinpitäjien käyttäminen rekisteröidyn henkilötietoja osana täysin automatisoitua päätöksentekoprosessia, jolla on suoria oikeusvaikutuksia tutkittavaan. Mutta hermoverkot, jotka ovat helposti assimiloitavissa automatisoituihin päätöksentekoprosesseihin, saavat koulutuksen jälkeen kyvyn tehdä automaattisia päätöksiä, jotka voivat vaikuttaa ihmisten elämään. Mutta nämä päätökset eivät aina ole "loogisia". Harjoittelun aikana itse asiassa jokainen hermoverkko oppii yhdistämään informaatiota keskenään, suhteuttamalla ne usein toisiinsa ehdottoman epälineaarisella tavalla. Eikä "logiikan" puuttuminen helpota sen lainsäätäjän työtä, joka haluaa nostaa kilpiä ihmisten yksityisyyden puolustamiseksi.
Jos valittaisiin myös äärimmäisen rajoittava politiikka, esimerkiksi kiellettäisiin arkaluonteisten tietojen käyttö, ellei omistaja ole nimenomaisesti antanut lupaa, hermoverkkojen laillinen käyttö olisi mahdotonta. Ja hermoverkkotekniikoista luopuminen olisi suuri menetys, ajattele vain analyysimalleja, jotka on koulutettu tietyn sairauden osittain sairastuneen väestön koehenkilöiden kliinisillä tiedoilla. Nämä mallit auttavat parantamaan ennaltaehkäisypolitiikkaa tunnistamalla korrelaatioita tiedoissa olevien elementtien ja itse sairauden välillä, odottamattomia korrelaatioita, jotka voivat kliinikkojen silmissä vaikuttaa täysin epäloogisilta.
Ihmisten yksityisyyden kunnioittamisen ongelman esittäminen sen jälkeen, kun sen kerääminen on ollut umpimähkäisiä vuosia, on vähintäänkin tekopyhää. GDPR itsessään on monimutkaisuutensa vuoksi vastuussa lukuisista manipuloinneista, jotka mahdollistavat luvan saamisen henkilötietojen käsittelyyn käyttämällä hyväksi lausekkeiden moniselitteisyyttä ja ymmärtämisvaikeutta.
Tarvitsemme ehdottomasti lain yksinkertaistamista, joka mahdollistaa sen sovellettavuuden, ja todellista koulutusta henkilötietojen tietoiseen käyttöön.
Ehdotukseni on, että yritykset eivät saa tietää palveluihinsa rekisteröityvien käyttäjien henkilötietoja, vaikka ne olisivat maksullisia palveluita. Yksityishenkilöiden tulisi käyttää väärennettyjä henkilötietoja automaattisesti, kun he käyttävät verkkojärjestelmiä. Todellisten tietojen käyttö tulee rajoittaa pelkästään ostoprosessiin, jolloin on varmistettava, että se on aina täysin erillään palvelutietokannasta.
Kohteen makujen ja mieltymysten tunteminen sallimatta nimen tai kasvojen yhdistämistä tähän profiiliin toimisi eräänlaisena anonymisoinnin muotona, joka suoritetaan alkupäässä, mikä mahdollistaisi automaattisesti tietojen keräämisen ja käytön automaatiojärjestelmissä, kuten tekoälyissä.
Artikkeli Gianfranco Fedele
Mikä tahansa liiketoiminta tuottaa paljon dataa, jopa eri muodoissa. Syötä nämä tiedot manuaalisesti Excel-taulukosta…
Yrityssähköpostien kompromissi lisääntyi yli kaksinkertaiseksi vuoden 2024 kolmen ensimmäisen kuukauden aikana vuoden viimeiseen neljännekseen verrattuna…
Käyttöliittymän erotteluperiaate on yksi oliosuuntautuneen suunnittelun viidestä SOLID-periaatteesta. Luokassa pitäisi olla…
Microsoft Excel on vertailutyökalu tietojen analysointiin, koska se tarjoaa monia ominaisuuksia tietojoukkojen järjestämiseen,…
Walliance, SIM ja alusta Euroopan johtajien joukossa kiinteistöjen joukkorahoituksen alalla vuodesta 2017 lähtien, ilmoittaa valmistuneensa…
Filament on "kiihdytetty" Laravel-kehityskehys, joka tarjoaa useita täyden pinon komponentteja. Se on suunniteltu yksinkertaistamaan prosessia…
"Minun on palattava saadakseni evoluutioni päätökseen: projisoin itseni tietokoneen sisään ja minusta tulee puhdasta energiaa. Asuttuaan…
Google DeepMind esittelee parannetun version tekoälymallistaan. Uusi parannettu malli tarjoaa paitsi…