Artikulo

Privacy Loop: mga artificial intelligence sa labyrinth ng Privacy at Copyright

Ito ang una sa dalawang artikulo kung saan tinutugunan ko ang maselang relasyon sa pagitan ng Privacy at Copyright sa isang banda, at Artificial Intelligence sa kabilang banda.

Isang problemadong ugnayan kung saan ang teknolohikal na ebolusyon ay nagpapatunay na napakabilis upang gawin ang anumang pagsasaayos ng regulasyon na hindi na ginagamit mula sa unang aplikasyon nito.

Ang pagtugon sa matitinik na mga isyu na kinasasangkutan ng mga karapatan ng mga tao at personal na data ay nangangailangan ng pansin, kakayahan at isang kailangang-kailangan na talakayan sa pagitan ng mga intelektwal at mga espesyalista sa ating panahon. Natutuklasan namin na hindi kami sapat na mabilis sa pag-angkop ng mga patakarang panlipunan sa mga hamon na idinudulot sa amin ng mga makabagong teknolohiya. Ang mga umuusbong na teknolohiya ay lalong nakikita ang kanilang mga sarili na gumagana sa bukas na larangan, sa kabuuang kawalan ng mga regulasyon na naglilimita sa kanilang aplikasyon, na malayang magdulot ng pinsala at samakatuwid ay gagawin ito nang walang parusa.

Posible bang isipin ang isang kontrol na ibabalik ang chain ng teknolohikal na pag-unlad sa siyentipikong pananaliksik at ang mga madiskarteng layunin nito?

Maiisip ba na pamahalaan ang ebolusyon ng ating mga species habang pinapanatili ang matatag na paggalang sa mga indibidwal na kalayaan?

Privacy?

“The more you try to hide, the more you attract attention. Bakit napakahalaga na walang nakakaalam tungkol sa iyo?" – mula sa pelikulang “Anon” na isinulat at idinirek ni Andrew Niccol – 2018

Sa pelikula "Mamaya” ng 2018, ang lipunan ng hinaharap ay isang madilim na lugar, sa ilalim ng direktang kontrol ng isang napakalaking sistema ng computer na tinatawag na Ether, na may kakayahang subaybayan ang bawat sulok ng bansa sa pamamagitan ng pagmamasid dito sa pamamagitan ng mga mata ng parehong mga tao na naninirahan dito. Ang bawat tao ay isang tagapangasiwa sa ngalan ni Ether at ang kanilang unang responsibilidad ay, siyempre, na subaybayan ang kanilang sarili at ang kanilang pag-uugali.

Si Ether ang pinakamahusay na kaalyado ng mga puwersa ng pulisya: sa pamamagitan ni Ether, matutunton ng mga ahente ang karanasan ng sinumang tao sa pamamagitan ng pagbabalik-tanaw nito sa sarili nilang mga mata at paglutas ng anumang uri ng krimen.

Nagtataka ang opisyal ng pulisya na si Sal kung bakit dapat mong ipaglaban ang iyong privacy: ano ang punto kung wala kang dahilan upang itago? Pagkatapos ng lahat, sa isang panahon kung saan ang mga teknolohiyang itinayo natin upang mapataas ang kaligtasan ng ating mga tahanan at ating mga lansangan ay nangangailangan ng pagtatala, pagsubaybay at pag-verify ng naturang impormasyon para sa interes ng mga tao mismo na humihingi ng proteksyon, paano natin aasahang magagarantiyahan kanilang privacy?

Upang ipakita kung gaano kapanganib ang magkaroon ng access sa buhay ng iba, kukunin ng isang hacker ang kontrol kay Ether at isang kakila-kilabot na bangungot ang darating sa buhay ng milyun-milyong tao: ang banta ng pagkakaroon ng panonood bilang walang magawang mga manonood ng mga larawan ng karamihan tormented sandali ng kanilang buhay, broadcast direkta sa kanilang mga retina.

Ang Loop

Le mga artipisyal na neural network na sumasailalim sa paggana ng mga modernong artificial intelligence, umiikot sa tatlong pangunahing elemento: pangunahing impormasyon kung hindi man ay tinatawag corpus, A algorithm para sa asimilasyon ng impormasyon at a memorya para sa kanilang pagsasaulo.

Ang algorithm ay hindi limitado sa isang banal na pag-load ng impormasyon sa memorya, sinusuri ito sa paghahanap ng mga elemento na nauugnay sa bawat isa. Ang isang halo ng data at mga relasyon ay ililipat sa memorya na bubuo ng a modelo.

Sa loob ng isang modelo, ang data at mga ugnayan ay ganap na hindi nakikilala, kaya naman ang muling pagtatayo ng corpus ng orihinal na impormasyon sa pagsasanay mula sa isang sinanay na neural network ay halos imposible.

Ito ay totoo lalo na kapag ang mga corpus ay naglalaman ng malaking halaga ng data. Ito ang kaso ng malalaking sistema ng lingguwistika na kilala bilang Large Language Models (LLM para sa maikli) kabilang ang kasumpa-sumpa na ChatGpt. Utang nila ang kanilang pagiging epektibo sa malaking halaga ng impormasyong ginagamit sa pagsasanay: kasalukuyang mahusay na pagsasanay ay nangangailangan ng hindi bababa sa ilang terabytes ng data at dahil ang isang terabyte ay tumutugma sa 90 bilyong mga character, humigit-kumulang 75 milyong mga pahina ng teksto, madaling maunawaan na mayroong napakaraming impormasyon na kailangan.

Ngunit kung hindi ma-de-engineer ang mga modelo, bakit natin itatanong sa ating sarili ang problema ng mga paglabag sa privacy?

Pangingibabaw ng data

"Ang sinumang baliw ay maaaring humiling na ma-exempt sa mga flight mission, ngunit ang sinumang humiling na ma-exempt sa mga flight mission ay hindi baliw." – batay sa nobelang “Catch 22” ni Joseph Heller.

newsletter ng pagbabago
Huwag palampasin ang pinakamahalagang balita sa pagbabago. Mag-sign up upang matanggap ang mga ito sa pamamagitan ng email.

Ang pagkolekta ng data na may ganoong laki na nagbibigay-daan sa paglikha ng mga proyekto tulad ng ChatGpt o iba pang katulad nito ay prerogative ngayon ng malalaking multinational na kumpanya na, sa kanilang mga digital na aktibidad, ay nakakuha ng kanilang mga kamay sa pinakamalaking repositoryo ng impormasyon. sa mundo: ang Web.

Ang Google at Microsoft, na sa loob ng maraming taon ay namamahala sa mga search engine na nag-scan sa Web at nag-extrapolate ng napakalaking dami ng impormasyon, ang mga unang kandidato para sa paglikha ng LLM, ang tanging mga modelo ng AI na may kakayahang tumunaw ng dami ng impormasyon tulad ng mga inilarawan sa itaas.

Mahirap paniwalaan na magagawa ng Google o Microsoft na itago ang personal na impormasyon sa kanilang data bago ito gamitin bilang isang corpus sa pagsasanay ng isang neural network. Ang pag-anonymize ng impormasyon sa kaso ng mga linguistic system ay isinasalin sa pagkakakilanlan ng personal na data sa loob ng isang corpus at pagpapalit nito ng pekeng data. Isipin natin ang isang corpus na may sukat na ilang terabytes kung saan gusto nating sanayin ang isang modelo at subukan nating isipin kung gaano karaming trabaho ang kinakailangan upang manu-manong i-anonymize ang data na nilalaman nito: halos imposible ito. Ngunit kung gusto naming umasa sa isang algorithm upang awtomatikong gawin ito, ang tanging sistema na kayang gawin ang trabahong ito ay isa pang parehong malaki at sopistikadong modelo.

Mayroon kaming isang klasikong problema sa Catch-22: "upang sanayin ang isang LLM na may hindi nakikilalang data kailangan namin ng isang LLM na may kakayahang i-anonymize ang mga ito, ngunit kung mayroon kaming isang LLM na may kakayahang i-anonymize ang data, ang pagsasanay nito ay hindi ginawa gamit ang hindi nakikilalang data .”

Ang GDPR ay hindi na ginagamit

Ang GDPR na nagdidikta (halos) sa buong mundo ng mga panuntunan para sa paggalang sa privacy ng mga tao, dahil sa mga paksang ito ay lumang balita na at ang proteksyon ng personal na data na kasangkot sa isang set ng pagsasanay ay hindi pinag-iisipan.

Sa GDPR, ang pagpoproseso ng personal na data para sa layunin ng pag-aaral ng mga pangkalahatang ugnayan at koneksyon ay bahagyang kinokontrol lamang ng Artikulo 22 na nagsasaad na: "Ang paksa ng data ay may karapatang hindi sumailalim sa isang desisyon na nakabatay lamang sa awtomatikong pagproseso, kabilang ang pag-profile, na nagdudulot ng mga legal na epekto sa kanya o na nakakaapekto sa kanya sa katulad at makabuluhang paraan".

Ipinakilala ng artikulong ito ang pagbabawal para sa mga data controller na gamitin ang personal na data ng isang paksa bilang bahagi ng isang ganap na automated na proseso ng paggawa ng desisyon na may direktang legal na epekto sa paksa. Ngunit ang mga neural network, na madaling ma-assimilable sa mga automated na proseso ng paggawa ng desisyon, kapag nasanay ay nakakakuha ng kakayahang gumawa ng mga awtomatikong desisyon na maaaring makaapekto sa buhay ng mga tao. Ngunit ang mga desisyong ito ay hindi palaging "lohikal". Sa panahon ng pagsasanay, sa katunayan, natututo ang bawat neural network na iugnay ang impormasyon sa isa't isa, kadalasang iniuugnay ang mga ito sa isa't isa sa isang ganap na hindi linear na paraan. At ang kawalan ng "lohika" ay hindi nagpapadali sa trabaho para sa mambabatas na gustong magtaas ng kalasag sa pagtatanggol sa privacy ng mga tao.

Kung pipiliin din ng isa na maglapat ng napakahigpit na patakaran, halimbawa ang pagbabawal sa paggamit ng anumang sensitibong data maliban kung tahasang pinahintulutan ng may-ari, ang legal na paggamit ng mga neural network ay magiging hindi praktikal. At ang pagsuko sa mga teknolohiya ng neural network ay magiging isang malaking kawalan, isipin lamang ang mga modelo ng pagsusuri na sinanay sa klinikal na data ng mga paksa ng isang populasyon na bahagyang naapektuhan ng isang partikular na sakit. Nakakatulong ang mga modelong ito na pahusayin ang mga patakaran sa pag-iwas sa pamamagitan ng pagtukoy ng mga ugnayan sa pagitan ng mga elementong naroroon sa data at ng sakit mismo, ang mga hindi inaasahang ugnayan na sa mga mata ng mga clinician ay maaaring mukhang ganap na hindi makatwiran.

Pamamahala ng mga pangangailangan

Ang paglalagay ng problema sa paggalang sa privacy ng mga tao pagkatapos ng walang habas na pagpapahintulot sa koleksyon nito sa loob ng maraming taon ay mapagkunwari. Ang GDPR mismo kasama ang pagiging kumplikado nito ay may pananagutan para sa maraming manipulasyon na nagbibigay-daan sa pagkuha ng pahintulot na magproseso ng personal na data sa pamamagitan ng pagsasamantala sa kalabuan ng mga sugnay at ang kahirapan sa pag-unawa.

Tiyak na kailangan natin ng pagpapasimple ng batas na nagpapahintulot sa pagiging angkop nito at isang tunay na edukasyon sa sinasadyang paggamit ng personal na impormasyon.

Ang aking panukala ay hindi payagan ang mga kumpanya na malaman ang personal na data ng mga user na nagrerehistro para sa kanilang mga serbisyo, kahit na sila ay mga bayad na serbisyo. Ang paggamit ng pekeng personal na data ng mga pribadong indibidwal ay dapat na awtomatikong mangyari kapag gumagamit sila ng mga online system. Ang paggamit ng totoong data ay dapat na nakakulong lamang sa proseso ng pagbili, tinitiyak na ito ay palaging ganap na hiwalay sa database ng serbisyo.

Ang pag-alam sa mga panlasa at kagustuhan ng paksa nang hindi pinapayagan ang isang pangalan o mukha na maiugnay sa profile na ito ay gagana bilang isang paraan ng pag-anonymization na isinasagawa sa upstream na awtomatikong magbibigay-daan sa pagkolekta ng data at paggamit ng mga ito sa loob ng mga sistema ng automation gaya ng mga artificial intelligence.

Artikulo ng Gianfranco Fedele

newsletter ng pagbabago
Huwag palampasin ang pinakamahalagang balita sa pagbabago. Mag-sign up upang matanggap ang mga ito sa pamamagitan ng email.

Kamakailang Mga Artikulo

Pumirma ang mga publisher at OpenAI ng mga kasunduan para i-regulate ang daloy ng impormasyong pinoproseso ng Artificial Intelligence

Noong nakaraang Lunes, inihayag ng Financial Times ang isang deal sa OpenAI. Nilisensyahan ng FT ang world-class na pamamahayag nito...

Abril 30 2024

Mga Online na Pagbabayad: Narito Kung Paano Ka Binabayaran ng Mga Serbisyo ng Streaming Magpakailanman

Milyun-milyong tao ang nagbabayad para sa mga serbisyo ng streaming, na nagbabayad ng buwanang bayad sa subscription. Karaniwang opinyon na ikaw ay…

Abril 29 2024

Itinatampok ng Veeam ang pinakakomprehensibong suporta para sa ransomware, mula sa proteksyon hanggang sa pagtugon at pagbawi

Ang Coveware ng Veeam ay patuloy na magbibigay ng mga serbisyo sa pagtugon sa insidente ng cyber extortion. Mag-aalok ang Coveware ng mga kakayahan sa forensics at remediation...

Abril 23 2024

Green and Digital Revolution: Kung Paano Binabago ng Predictive Maintenance ang Industriya ng Langis at Gas

Binabago ng predictive maintenance ang sektor ng langis at gas, na may makabago at proactive na diskarte sa pamamahala ng halaman.…

Abril 22 2024