用品

隱私循環:隱私和版權迷宮中的人工智慧

這是兩篇文章中的第一篇,我在這兩篇文章中一方面討論了隱私和版權之間的微妙關係,另一方面討論了人工智慧之間的微妙關係。

這是一種有問題的關係,事實證明,技術的發展速度如此之快,以至於任何監管調整從其首次應用開始就變得過時了。

解決涉及人民權利和個人資料的棘手問題需要我們這個時代的知識分子和專家之間的關注、能力和不可或缺的討論。 我們發現,我們在調整社會規則以應對技術創新給我們帶來的挑戰方面不夠快。 新興技術越來越發現自己在開放領域運行,完全沒有限制​​其應用的法規,可以隨意造成損害,因此完全可以不受懲罰。

是否有可能想像一種從技術發展鏈溯到科學研究及其策略目標的控制?

是否可以想像在保持對個人自由的堅定尊重的同時控制我們物種的進化?

隱私?

「你越想隱藏,就越會引起注意。 為什麼你這麼重要,以至於沒有人知道你的事?” – 摘自安德魯尼可編劇和導演的電影《Anon》 – 2018

在這部影片中 ”不久2018 年,未來的社會是一個黑暗的地方,由一個名為 Ether 的巨大電腦系統直接控制,能夠透過居住在其中的同一個人的眼睛來觀察國家的每個角落。 每個人都是以太坊的監督者,他們的首要責任當然是監督自己和自己的行為。

以太是警察部隊最好的盟友:透過以太,特工可以透過親眼重溫來追蹤任何人的經歷,並解決任何類型的犯罪。

薩爾警官想知道為什麼你應該為保護自己的隱私而戰:當你沒有理由隱藏時,還有什麼意義呢? 畢竟,在我們為提高家庭和街道安全而開發的技術需要為了尋求保護的人們本身的利益而記錄、監控和驗證這些資訊的時代,我們如何能指望保證他們的隱私?

為了證明接觸他人的生活是多麼危險,駭客將控制以太幣,一場可怕的噩夢將降臨到數百萬人的生活中:不得不作為無助的旁觀者觀看最危險的圖像的威脅。他們生活中的痛苦時刻,直接轉播到他們的視網膜上。

盧普

Le 人工神經網絡 它是現代人工智慧功能的基礎,圍繞著三個主要要素: 基本訊息,也稱為 文集一 算法 為了資訊的同化和一 記憶 為了他們的記憶。

該演算法不僅限於將普通資訊載入到記憶體中,它還掃描記憶體以搜尋彼此相關的元素。 數據和關係的混合將傳輸到記憶體中,形成一個 模型.

在模型中,資料和關係是完全無法區分的,這就是為什麼從經過訓練的神經網路重建原始訓練資訊的語料庫幾乎是不可能的。

當語料庫包含大量資料時尤其如此。 這是大型語言系統的情況,稱為 Large Language Models(簡稱LLM),包括臭名昭著的ChatGpt。 它們的有效性歸功於訓練中使用的大量信息:目前良好的訓練至少需要幾 TB 的數據,並且考慮到 90 TB 對應 75 億個字符,大約 XNUMX 萬頁文本,很容易理解,需要這麼多信息。

但如果模型不能去工程化,我們為什麼要問自己侵犯隱私的問題呢?

數據主導

“誰瘋了,可以要求免除飛行任務,但誰要求免除飛行任務,誰就不瘋。” ——改編自約瑟夫·海勒的小說《第二十二條軍規》。

創新通訊
不要錯過有關創新的最重要新聞。 註冊以通過電子郵件接收它們。

如今,大型跨國公司的特權是收集如此規模的數據,以允許創建 ChatGpt 或其他類似項目,這些公司透過其數位活動,已經能夠掌握最大的資訊儲存庫在世界上:網路。

Google和微軟多年來一直管理掃描網路並推斷大量資訊的搜尋引擎,它們是創建 LLM 的首批候選者,LLM 是唯一能夠消化上述大量資訊的人工智慧模型。

很難相信谷歌或微軟能夠在將其資料用作訓練神經網路的語料庫之前掩蓋其資料中的個人資訊。 在語言系統中,匿名資訊轉化為語料庫中個人資料的識別以及用虛假資料取代。 讓我們想像一下我們想要訓練模型的一個幾 TB 大小的語料庫,並嘗試想像一下手動匿名化它所包含的資料需要多少工作:這實際上是不可能的。 但如果我們想依靠演算法自動完成這項工作,唯一能夠完成這項工作的系統將是另一個同樣龐大且複雜的模型。

我們面臨著一個經典的第二十二條軍規問題:「要使用匿名資料訓練法學碩士,我們需要一個能夠對其進行匿名化的法學碩士,但如果我們有一個能夠對資料進行匿名化的法學碩士,那麼它的訓練就不是使用匿名數據完成的”

GDPR 已過時

鑑於這些主題,GDPR(幾乎)在全球範圍內規定了尊重人們隱私的規則,這已經是老新聞了,並且沒有考慮保護訓練集中涉及的個人資料。

在 GDPR 中,以了解一般相關性和聯繫為目的的個人資料處理僅受到第 22 條的部分監管,該條規定:「資料主體有權不接受僅基於自動化處理(包括分析)的決策。對他產生法律效力或以類似且重大的方式影響他」。

本文介紹了禁止資料控制者使用主體的個人資料作為對主體有直接法律影響的全自動決策過程的一部分的規定。 但神經網路很容易融入自動化決策過程,一旦經過訓練,就能夠做出影響人們生活的自動化決策。 但這些決定並不總是「合乎邏輯的」。 事實上,在訓練過程中,每個神經網路都會學習將資訊相互關聯,通常以絕對非線性的方式將它們相互關聯。 而缺乏「邏輯」並不能讓立法者更輕鬆地為保護人們的隱私築起屏障。

如果還選擇應用極其嚴格的政策,例如除非得到所有者的明確授權,否則禁止使用任何敏感數據,那麼合法使用神經網路將是不切實際的。 放棄神經網路技術將是一個重大損失,想想用部分受某種特定疾病影響的人群的臨床數據訓練的分析模型。 這些模型透過識別數據中存在的元素與疾病本身之間的相關性來幫助改善預防政策,在臨床醫生看來,意想不到的相關性可能看起來完全不合邏輯。

管理需求

在多年來不加區別地授權收集隱私之後,提出尊重人們隱私的問題,至少可以說是虛偽的。 GDPR 本身的複雜性導致了許多操縱行為,這些操縱行為允許利用條款的模糊性和理解的難度來獲取處理個人資料的授權。

我們當然需要簡化法律以使其適用,並進行有意識地使用個人資訊的真正教育。

我的建議是不允許公司知道註冊其服務的用戶的個人數據,即使這些服務是付費服務。 私人使用虛假個人資料在使用線上系統時應該自動發生。 真實資料的使用應僅限於購買過程,確保其始終與服務資料庫完全分離。

在不允許姓名或臉孔與此個人資料相關聯的情況下了解主體的品味和偏好,將起到上游進行的一種匿名形式的作用,這將自動允許資料的收集及其在人工智慧等自動化系統中的使用。

藝術作品 Gianfranco Fedele

創新通訊
不要錯過有關創新的最重要新聞。 註冊以通過電子郵件接收它們。

最近的文章

出版商與 OpenAI 簽署協議以規範人工智慧處理的資訊流

上週一,英國《金融時報》宣布與 OpenAI 達成協議。英國《金融時報》授予其世界級新聞報道許可…

30月2024

線上支付:串流服務如何讓您永遠付款

數百萬人為串流媒體服務付費,每月支付訂閱費用。人們普遍認為您...

29月2024

Veeam 為勒索軟體提供最全面的支持,從保護到回應和恢復

Veeam 的 Coveware 將繼續提供網路勒索事件回應服務。 Coveware 將提供取證和修復功能…

23月2024

綠色與數位革命:預測性維護如何改變石油和天然氣產業

預測性維護正在透過創新和主動的工廠管理方法徹底改變石油和天然氣行業。

22月2024