Erthyglau

Dolen Preifatrwydd: deallusrwydd artiffisial yn labyrinth Preifatrwydd a Hawlfraint

Dyma’r gyntaf o ddwy erthygl lle rwy’n mynd i’r afael â’r berthynas dyner rhwng Preifatrwydd a Hawlfraint ar y naill law, a Deallusrwydd Artiffisial ar y llaw arall.

Perthynas broblemus lle mae esblygiad technolegol yn profi i fod mor gyflym ag i wneud unrhyw addasiad rheoleiddiol wedi darfod o'i gymhwysiad cyntaf.

Mae mynd i'r afael â materion dyrys sy'n ymwneud â hawliau pobl a data personol yn gofyn am sylw, cymhwysedd a thrafodaeth anhepgor rhwng deallusion ac arbenigwyr ein hoes. Rydym yn darganfod nad ydym yn ddigon cyflym i addasu rheolau cymdeithasol i'r heriau y mae arloesiadau technolegol yn eu hachosi i ni. Mae technolegau sy'n dod i'r amlwg yn gynyddol yn canfod eu hunain yn gweithredu yn y maes agored, yn absenoldeb llwyr y rheoliadau sy'n cyfyngu ar eu cymhwyso, yn rhydd i achosi difrod ac felly i wneud hynny heb gael eu cosbi'n llwyr.

A yw'n bosibl dychmygu rheolaeth sy'n mynd yn ôl i fyny'r gadwyn o ddatblygiad technolegol i ymchwil wyddonol a'i amcanion strategol?

A yw'n bosibl i lywodraethu esblygiad ein rhywogaeth tra'n cynnal parch cadarn at ryddid unigol?

Preifatrwydd?

“Po fwyaf y byddwch chi'n ceisio cuddio, y mwyaf y byddwch chi'n denu sylw. Pam ei bod mor bwysig nad oes neb yn gwybod amdanoch chi?” - o'r ffilm "Anon" a ysgrifennwyd ac a gyfarwyddwyd gan Andrew Niccol - 2018

Yn y ffilm "Anon” o 2018, mae cymdeithas y dyfodol yn lle tywyll, o dan reolaeth uniongyrchol system gyfrifiadurol enfawr o'r enw Ether, sy'n gallu monitro pob cornel o'r genedl trwy ei arsylwi trwy lygaid yr un bobl sy'n ei phoblogi. Mae pob bod dynol yn oruchwyliwr ar ran Ether a'u cyfrifoldeb cyntaf, wrth gwrs, yw monitro eu hunain a'u hymddygiad.

Ether yw cynghreiriad gorau'r heddluoedd: trwy Ether, gall asiantau olrhain profiad unrhyw berson trwy ei ail-fyw â'u llygaid eu hunain a datrys unrhyw fath o drosedd.

Mae Sal heddwas yn meddwl tybed pam y dylech ymladd i amddiffyn eich preifatrwydd: beth yw'r pwynt pan nad oes gennych unrhyw reswm i guddio? Wedi'r cyfan, mewn oes lle mae'r technolegau rydyn ni'n eu hadeiladu i gynyddu diogelwch ein cartrefi a'n strydoedd yn gofyn am gofnodi, monitro a gwirio gwybodaeth o'r fath er budd y bobl eu hunain sy'n gofyn am amddiffyniad, sut allwn ni ddisgwyl gwarantu eu preifatrwydd?

I ddangos pa mor beryglus yw hi i gael mynediad i fywydau pobl eraill, bydd haciwr yn cymryd rheolaeth ar Ether a bydd hunllef ofnadwy yn disgyn ar fywydau miliynau o bobl: y bygythiad o orfod gwylio fel gwylwyr diymadferth y delweddau mwyaf eiliadau poenus o'u bywydau, yn cael eu darlledu'n uniongyrchol i'w retinas.

Y Loop

Le rhwydweithiau niwral artiffisial sy'n sail i weithrediad deallusrwydd artiffisial modern, yn troi o gwmpas tair prif elfen: gwybodaeth sylfaenol a elwir fel arall corpws, Un algorithm ar gyfer cymhathu gwybodaeth a cof er mwyn eu cofio.

Nid yw'r algorithm yn gyfyngedig i lwythiad banal o wybodaeth i'r cof, mae'n ei sganio i chwilio am elfennau sy'n eu cysylltu â'i gilydd. Bydd cymysgedd o ddata a pherthnasoedd yn cael eu trosglwyddo i'r cof a fydd yn ffurfio a templed.

O fewn model, mae data a pherthnasoedd yn gwbl anwahanadwy, a dyna pam ei bod bron yn amhosibl ail-greu'r corpws o wybodaeth hyfforddi wreiddiol o rwydwaith niwral hyfforddedig.

Mae hyn yn arbennig o wir pan fo cyrff yn cynnwys llawer iawn o ddata. Mae hyn yn wir am y systemau ieithyddol mawr a elwir Large Language Models (LLM yn fyr) gan gynnwys yr enwog ChatGpt. Mae eu heffeithiolrwydd yn ddyledus i'r swm mawr o wybodaeth a ddefnyddir mewn hyfforddiant: ar hyn o bryd mae hyfforddiant da yn gofyn am o leiaf ychydig o derabeit o ddata ac o ystyried bod un terabyte yn cyfateb i 90 biliwn o nodau, tua 75 miliwn o dudalennau o destun, mae'n hawdd deall bod yna cymaint o wybodaeth sydd ei hangen.

Ond os na ellir dad-beiriannu modelau, pam ddylem ni ofyn i ni'n hunain beth yw problem troseddau preifatrwydd?

Goruchafiaeth data

“Gall pwy bynnag sy’n wallgof ofyn am gael ei eithrio o deithiau hedfan, ond nid yw pwy bynnag sy’n gofyn am gael ei eithrio o deithiau hedfan yn wallgof.” – yn seiliedig ar y nofel “Catch 22” gan Joseph Heller.

Cylchlythyr arloesi
Peidiwch â cholli'r newyddion pwysicaf am arloesi. Cofrestrwch i'w derbyn trwy e-bost.

Heddiw, mae casglu data o'r fath faint fel y gellir creu prosiectau fel ChatGpt neu rai tebyg eraill yn uchelfraint cwmnïau rhyngwladol mawr sydd, gyda'u gweithgareddau digidol, wedi gallu cael eu dwylo ar y storfa fwyaf o wybodaeth. yn y byd: the Web.

Google a Microsoft, sydd ers blynyddoedd wedi rheoli peiriannau chwilio sy'n sganio'r We ac yn allosod llawer iawn o wybodaeth, yw'r ymgeiswyr cyntaf ar gyfer creu LLM, yr unig fodelau AI sy'n gallu treulio symiau o wybodaeth fel y rhai a ddisgrifir uchod.

Mae'n anodd credu y byddai Google neu Microsoft yn gallu cuddio gwybodaeth bersonol yn eu data cyn ei ddefnyddio fel corpws i hyfforddi rhwydwaith niwral. Mae dienwi gwybodaeth yn achos systemau ieithyddol yn golygu adnabod data personol o fewn corpws a’i ddisodli â data ffug. Gadewch i ni ddychmygu corpws maint ychydig o terabytes yr ydym am hyfforddi model ag ef a gadewch i ni geisio dychmygu faint o waith fyddai ei angen i wneud y data sydd ynddo â llaw yn ddienw: byddai bron yn amhosibl. Ond pe baem am ddibynnu ar algorithm i'w wneud yn awtomatig, yr unig system a allai wneud y gwaith hwn fyddai model arall yr un mor fawr a soffistigedig.

Rydym ym mhresenoldeb problem glasurol Catch-22: “i hyfforddi LLM gyda data dienw mae angen LLM sy’n gallu ei wneud yn ddienw, ond os oes gennym LLM sy’n gallu gwneud y data’n ddienw, ni chafodd ei hyfforddiant ei wneud gyda data dienw .”

Mae’r GDPR wedi darfod

Mae'r GDPR sy'n pennu (bron) yn fyd-eang y rheolau ar gyfer parchu preifatrwydd pobl, yng ngoleuni'r pynciau hyn eisoes yn hen newyddion ac nid yw diogelu data personol sy'n gysylltiedig â set hyfforddi yn cael ei ystyried.

Yn y GDPR, dim ond yn rhannol y caiff prosesu data personol at ddibenion dysgu cydberthnasau a chysylltiadau cyffredinol ei reoleiddio gan Erthygl 22 sy’n datgan: “Mae gan wrthrych y data yr hawl i beidio â bod yn destun penderfyniad sy’n seiliedig ar brosesu awtomataidd yn unig, gan gynnwys proffilio, sy’n yn cynhyrchu effeithiau cyfreithiol arno neu sy'n effeithio arno mewn ffordd debyg ac arwyddocaol".

Mae’r erthygl hon yn cyflwyno’r gwaharddiad i reolwyr data ddefnyddio data personol gwrthrych fel rhan o broses gwneud penderfyniadau gwbl awtomataidd sy’n cael effeithiau cyfreithiol uniongyrchol ar y gwrthrych. Ond mae rhwydweithiau niwral, sy'n hawdd eu cymathu i brosesau gwneud penderfyniadau awtomataidd, unwaith y byddant wedi'u hyfforddi yn cael y gallu i wneud penderfyniadau awtomatig a all effeithio ar fywydau pobl. Ond nid yw’r penderfyniadau hyn bob amser yn “rhesymegol”. Yn ystod hyfforddiant, mewn gwirionedd, mae pob rhwydwaith niwral yn dysgu i gysylltu gwybodaeth â'i gilydd, yn aml yn eu cysylltu â'i gilydd mewn modd cwbl aflinol. Ac nid yw absenoldeb "rhesymeg" yn gwneud y gwaith yn haws i'r deddfwr sydd am godi tarian i amddiffyn preifatrwydd pobl.

Pe bai rhywun hefyd yn dewis gweithredu polisi hynod gyfyngol, er enghraifft gwahardd defnyddio unrhyw ddata sensitif oni bai bod y perchennog wedi'i awdurdodi'n benodol, byddai defnydd cyfreithiol o rwydweithiau niwral yn anymarferol. A byddai rhoi'r gorau i dechnolegau rhwydwaith niwral yn golled fawr, meddyliwch am y modelau dadansoddi sydd wedi'u hyfforddi gyda data clinigol pynciau poblogaeth sydd wedi'i heffeithio'n rhannol gan afiechyd penodol. Mae'r modelau hyn yn helpu i wella polisïau atal trwy nodi cydberthnasau rhwng yr elfennau sy'n bresennol yn y data a'r clefyd ei hun, cydberthnasau annisgwyl a allai ymddangos yn gwbl afresymegol yng ngolwg clinigwyr.

Rheoli anghenion

Rhagrithiol a dweud y lleiaf yw gosod y broblem o barchu preifatrwydd pobl ar ôl awdurdodi ei gasgliad yn ddiwahân am flynyddoedd. Mae’r GDPR ei hun, gyda’i gymhlethdod, yn gyfrifol am driniaethau niferus sy’n caniatáu cael awdurdod i brosesu data personol trwy fanteisio ar amwysedd y cymalau a’r anhawster i’w ddeall.

Yn sicr mae angen i ni symleiddio'r gyfraith sy'n caniatáu ei chymhwysedd ac addysg wirioneddol yn y defnydd ymwybodol o wybodaeth bersonol.

Fy nghynnig yw peidio â chaniatáu i gwmnïau wybod data personol defnyddwyr sy'n cofrestru ar gyfer eu gwasanaethau, hyd yn oed os ydynt yn wasanaethau â thâl. Dylai unigolion preifat ddefnyddio data personol ffug yn awtomatig pan fyddant yn defnyddio systemau ar-lein. Dylai'r defnydd o ddata go iawn gael ei gyfyngu i'r broses brynu yn unig, gan sicrhau ei fod bob amser yn gwbl ar wahân i gronfa ddata'r gwasanaeth.

Byddai gwybod chwaeth a hoffterau’r gwrthrych heb ganiatáu i enw neu wyneb fod yn gysylltiedig â’r proffil hwn yn gweithredu fel ffurf o ddienw a wneir i fyny’r afon a fyddai’n caniatáu’n awtomatig i gasglu data a’u defnyddio o fewn systemau awtomeiddio megis deallusrwydd artiffisial.

Erthygl o Gianfranco Fedele