Artikel

Loop Privasi: intelijen buatan ing labirin Privasi lan Hak Cipta

Iki minangka pisanan saka rong artikel sing dakkandhakake babagan hubungan sing alus antarane Privasi lan Hak Cipta ing sisih siji, lan Kecerdasan Buatan ing sisih liyane.

Hubungan masalah ing ngendi evolusi teknologi kabukten cepet banget nganti nggawe panyesuaian regulasi dadi lungse saka aplikasi pisanan.

Ngatasi masalah eri sing nglibatake hak-hak wong lan data pribadhi mbutuhake perhatian, kompetensi lan diskusi sing ora bisa ditindakake antarane para intelektual lan spesialis ing jaman saiki. Kita nemokake manawa kita ora cukup cepet kanggo adaptasi aturan sosial kanggo tantangan sing ditindakake dening inovasi teknologi. Teknologi sing berkembang saya tambah akeh operasi ing lapangan sing mbukak, kanthi ora ana peraturan sing mbatesi aplikasi, bebas nyebabake karusakan lan mulane nindakake kanthi impunitas total.

Apa bisa mbayangno kontrol sing nggawe rantai pangembangan teknologi kanggo riset ilmiah lan tujuan strategis?

Apa bisa dibayangake kanggo ngatur evolusi spesies kita nalika tetep ngurmati kebebasan individu?

Privasi?

"Sing luwih sampeyan nyoba ndhelikake, luwih sampeyan narik kawigaten. Apa sebabe ora ana sing ngerti babagan sampeyan?" - saka film "Anon" sing ditulis lan disutradarai dening Andrew Niccol - 2018

Ing film "anon” saka 2018, masyarakat mangsa iku panggonan peteng, ing kontrol langsung saka sistem komputer gigantic disebut Ether, saged ngawasi saben sudhut bangsa dening mirsani liwat mripate wong sing padha populate. Saben manungsa minangka pengawas atas jenenge Ether lan tanggung jawab sing sepisanan yaiku, mesthi, ngawasi awake dhewe lan prilaku.

Ether minangka sekutu paling apik saka pasukan polisi: liwat Ether, agen bisa nglacak pengalaman sapa wae kanthi nylametake kanthi mripate dhewe lan ngrampungake jinis kejahatan apa wae.

Petugas polisi Sal kepengin weruh kenapa sampeyan kudu berjuang kanggo nglindhungi privasi sampeyan: apa gunane yen sampeyan ora duwe alesan kanggo ndhelikake? Sawise kabeh, ing jaman nalika teknologi sing dibangun kanggo nambah keamanan omah lan lurung-lurung kita mbutuhake rekaman, ngawasi lan verifikasi informasi kasebut kanggo kepentingan wong-wong sing njaluk perlindungan, kepiye kita bisa njamin njamin privasi padha?

Kanggo nduduhake sepira mbebayani yen duwe akses menyang urip wong liya, peretas bakal ngontrol Eter lan ngipi elek bakal nemoni jutaan wong: ancaman kudu nonton gambar sing paling akeh minangka penonton sing ora duwe daya. wektu tormented gesang, siaran langsung menyang retina.

The Loop

Le jaringan syaraf tiruan sing ndasari fungsi intelijen buatan modern, ngubengi telung unsur utama: informasi dhasar sing diarani corpus, a algoritma kanggo asimilasi informasi lan siji memori kanggo hafalane.

Algoritma ora diwatesi kanggo ngemot informasi banal menyang memori, iku mindai kanggo nggoleki unsur sing ana hubungane karo saben liyane. Campuran data lan hubungan bakal ditransfer menyang memori sing bakal mbentuk a cithakan.

Ing model, data lan sesambungan ora bisa dibedakake, mula ora mungkin kanggo mbangun korpus informasi latihan asli saka jaringan saraf sing dilatih.

Iki utamané bener nalika corpuses ngemot jumlah gedhe saka data. Iki minangka kasus sistem linguistik gedhe sing dikenal minangka Large Language Models (LLM kanggo short) kalebu ChatGpt kesuwur. Dheweke duwe efektivitas amarga akeh informasi sing digunakake ing latihan: latihan sing apik saiki mbutuhake paling sethithik sawetara terabyte data lan yen siji terabyte cocog karo 90 milyar karakter, kira-kira 75 yuta kaca teks, gampang dingerteni yen ana akeh informasi sing dibutuhake.

Nanging yen model ora bisa de-engineered, kenapa kita kudu takon dhewe masalah pelanggaran privasi?

Dominasi data

"Sapa sing edan bisa njaluk dibebasake saka misi penerbangan, nanging sing njaluk dibebasake saka misi penerbangan ora edan." - adhedhasar novel "Catch 22" dening Joseph Heller.

newsletter inovasi
Aja kantun warta paling penting babagan inovasi. Mlebu kanggo nampa wong-wong mau liwat email.

Pengumpulan data kanthi ukuran sing ngidini nggawe proyek kayata ChatGpt utawa liyane sing padha saiki dadi hak prerogatif perusahaan multinasional gedhe sing, kanthi aktivitas digital, wis bisa entuk repositori informasi paling gedhe. ing donya: Web.

Google lan Microsoft, sing wis pirang-pirang taun wis ngatur mesin telusur sing mindai Web lan ngekstrapolasi informasi sing akeh banget, minangka calon pisanan kanggo nggawe LLM, siji-sijine model AI sing bisa nyerna jumlah informasi kaya sing kasebut ing ndhuwur.

Pancen angel dipercaya manawa Google utawa Microsoft bakal bisa ndhelikake informasi pribadhi ing data kasebut sadurunge digunakake minangka korpus kanggo nglatih jaringan saraf. Informasi anonim ing kasus sistem linguistik nerjemahake menyang identifikasi data pribadhi ing korpus lan ngganti karo data palsu. Ayo mbayangno corpus ukuran sawetara terabyte sing arep dilatih model lan ayo nyoba mbayangno sepira kerja sing dibutuhake kanggo anonim data sing ana: meh ora mungkin. Nanging yen kita pengin ngandelake algoritma kanggo nindakake kanthi otomatis, siji-sijine sistem sing bisa nindakake proyek iki yaiku model liyane sing padha gedhe lan canggih.

Kita ana ing masalah Catch-22 klasik: "kanggo nglatih LLM kanthi data anonim, kita butuh LLM sing bisa menehi anonim, nanging yen kita duwe LLM sing bisa nggawe anonim data kasebut, latihan kasebut ora ditindakake nganggo data anonim. .”

GDPR wis lungse

GDPR sing ndhikte (meh) aturan global kanggo ngurmati privasi wong, amarga topik kasebut wis dadi warta lawas lan proteksi data pribadhi sing ana ing set latihan ora dipikirake.

Ing GDPR, ngolah data pribadhi kanggo tujuan sinau korélasi lan sambungan umum mung diatur sebagian dening Artikel 22 sing nyatakake: "Subjek data duwe hak ora kena keputusan sing mung adhedhasar proses otomatis, kalebu profil, sing ngasilake efek hukum marang dheweke utawa sing mengaruhi dheweke kanthi cara sing padha lan signifikan".

Artikel iki ngenalake larangan kanggo pengontrol data nggunakake data pribadhi saka subyek minangka bagéan saka proses nggawe keputusan kanthi otomatis sing duwe efek legal langsung ing subyek. Nanging jaringan saraf, gampang assimilable kanggo proses nggawe keputusan otomatis, sawise dilatih entuk kemampuan kanggo nggawe keputusan otomatis sing bisa mengaruhi urip wong. Nanging keputusan kasebut ora mesthi "logis". Sajrone latihan, nyatane, saben jaringan saraf sinau kanggo nggandhengake informasi karo saben liyane, asring hubungane karo saben liyane kanthi cara sing ora linier. Lan ora ana "logika" ora nggawe proyek luwih gampang kanggo legislator sing pengin ngunggahake tameng kanggo njaga privasi wong.

Yen ana uga milih ngetrapake kabijakan sing mbatesi banget, contone nglarang panggunaan data sensitif apa wae kajaba diidinake kanthi tegas dening pemilik, panggunaan jaringan saraf sing sah ora bisa ditindakake. Lan nyerahake teknologi jaringan saraf bakal dadi kerugian gedhe, mung mikirake model analisis sing dilatih karo data klinis saka subyek populasi sing sebagian wis kena pengaruh penyakit tartamtu. Model kasebut mbantu ningkatake kabijakan pencegahan kanthi ngenali korélasi antara unsur-unsur sing ana ing data lan penyakit kasebut, korélasi sing ora dikarepke sing ing mata dokter bisa uga katon ora logis.

Ngatur kabutuhan

Nemtokake masalah ngajeni privasi wong sawise menehi wewenang koleksi pirang-pirang taun kanthi cara sing munafik. GDPR dhewe kanthi kerumitan tanggung jawab kanggo akeh manipulasi sing ngidini entuk wewenang kanggo ngolah data pribadhi kanthi ngeksploitasi ambiguitas klausa lan angel dipahami.

Kita mesthi mbutuhake nyederhanakake hukum sing ngidini ditrapake lan pendidikan nyata babagan panggunaan informasi pribadhi kanthi sadar.

Proposalku ora ngidini perusahaan ngerti data pribadhi pangguna sing ndhaptar layanan kasebut, sanajan layanan kasebut dibayar. Panggunaan data pribadhi palsu dening individu pribadi kudu kedadeyan kanthi otomatis nalika nggunakake sistem online. Panggunaan data nyata kudu diwatesi mung ing proses purchasing, kanggo mesthekake yen iku tansah rampung kapisah saka database layanan.

Ngerti rasa lan preferensi subyek tanpa ngidini jeneng utawa pasuryan digandhengake karo profil iki bakal dadi wujud anonimisasi sing ditindakake ing hulu sing bakal ngidini pengumpulan data lan panggunaane ing sistem otomatis kayata intelijen buatan.

Artikel di Gianfranco Fedele