Các bài viết

Vòng lặp quyền riêng tư: trí tuệ nhân tạo trong mê cung Quyền riêng tư và Bản quyền

Đây là bài đầu tiên trong số hai bài viết mà tôi đề cập đến mối quan hệ mong manh giữa một mặt là Quyền riêng tư và Bản quyền, và mặt khác là Trí tuệ nhân tạo.

Một mối quan hệ có vấn đề trong đó sự phát triển công nghệ đang tỏ ra nhanh đến mức khiến bất kỳ điều chỉnh quy định nào trở nên lỗi thời ngay từ lần áp dụng đầu tiên.

Việc giải quyết các vấn đề gai góc liên quan đến quyền con người và dữ liệu cá nhân đòi hỏi sự quan tâm, năng lực và sự thảo luận không thể thiếu giữa các trí thức và chuyên gia của thời đại chúng ta. Chúng ta đang khám phá ra rằng chúng ta không đủ nhanh chóng trong việc thích ứng các quy tắc xã hội với những thách thức mà đổi mới công nghệ đặt ra cho chúng ta. Các công nghệ mới nổi ngày càng thấy mình hoạt động trong lĩnh vực mở, hoàn toàn không có các quy định hạn chế ứng dụng của chúng, có thể gây ra thiệt hại và do đó làm như vậy mà hoàn toàn không bị trừng phạt.

Có thể tưởng tượng được một sự kiểm soát quay ngược chuỗi phát triển công nghệ sang nghiên cứu khoa học và các mục tiêu chiến lược của nó không?

Có thể tưởng tượng được việc quản lý sự tiến hóa của loài người chúng ta trong khi vẫn duy trì sự tôn trọng vững chắc đối với các quyền tự do cá nhân không?

Sự riêng tư?

“Bạn càng cố che giấu thì bạn càng thu hút được nhiều sự chú ý. Tại sao việc đó lại quan trọng đến mức không ai biết về bạn?” – từ phim “Anon” do Andrew Niccol viết kịch bản và đạo diễn – 2018

Trong phim "Lập tức” của năm 2018, xã hội của tương lai là một nơi tối tăm, dưới sự điều khiển trực tiếp của một hệ thống máy tính khổng lồ tên là Ether, có khả năng giám sát mọi ngóc ngách của đất nước bằng cách quan sát nó qua con mắt của chính những người dân sống ở đó. Mỗi con người đều là người giám sát thay mặt cho Ether và trách nhiệm đầu tiên của họ tất nhiên là giám sát bản thân và hành vi của mình.

Ether là đồng minh tốt nhất của lực lượng cảnh sát: thông qua Ether, các đặc vụ có thể theo dõi trải nghiệm của bất kỳ người nào bằng cách tận mắt hồi tưởng lại trải nghiệm đó và giải quyết mọi loại tội phạm.

Cảnh sát Sal thắc mắc tại sao bạn nên đấu tranh để bảo vệ quyền riêng tư của mình: có ích gì khi bạn không có lý do gì để che giấu? Suy cho cùng, trong thời đại mà các công nghệ mà chúng ta xây dựng để tăng cường sự an toàn cho ngôi nhà và đường phố của chúng ta yêu cầu ghi lại, giám sát và xác minh những thông tin đó vì lợi ích của chính những người yêu cầu bảo vệ, làm sao chúng ta có thể mong đợi để đảm bảo quyền riêng tư của họ?

Để chứng minh mức độ nguy hiểm của việc truy cập vào cuộc sống của người khác, một hacker sẽ chiếm quyền kiểm soát Ether và một cơn ác mộng khủng khiếp sẽ giáng xuống cuộc sống của hàng triệu người: mối đe dọa phải đứng nhìn những khán giả bất lực nhìn những hình ảnh của những kẻ đáng sợ nhất. những khoảnh khắc đau khổ của cuộc đời họ, được truyền thẳng vào võng mạc của họ.

The Loop

Le mạng lưới thần kinh nhân tạo làm nền tảng cho hoạt động của trí tuệ nhân tạo hiện đại, xoay quanh ba yếu tố chính: thông tin cơ bản hay còn gọi là văn thể, One thuật toán để đồng hóa thông tin và bộ nhớ cho việc ghi nhớ của họ.

Thuật toán không bị giới hạn ở việc tải thông tin tầm thường vào bộ nhớ, nó quét thông tin đó để tìm kiếm các phần tử liên quan đến chúng với nhau. Một hỗn hợp dữ liệu và các mối quan hệ sẽ được chuyển vào bộ nhớ, tạo thành một kiểu mẫu.

Trong một mô hình, dữ liệu và các mối quan hệ hoàn toàn không thể phân biệt được, đó là lý do tại sao việc xây dựng lại kho thông tin đào tạo ban đầu từ một mạng lưới thần kinh được đào tạo là gần như không thể.

Điều này đặc biệt đúng khi kho văn bản chứa lượng lớn dữ liệu. Đây là trường hợp của các hệ thống ngôn ngữ lớn được gọi là Large Language Models (viết tắt là LLM) bao gồm cả ChatGpt khét tiếng. Chúng có được tính hiệu quả nhờ lượng thông tin lớn được sử dụng trong đào tạo: hiện tại, việc đào tạo tốt cần ít nhất vài terabyte dữ liệu và vì một terabyte tương ứng với 90 tỷ ký tự, khoảng 75 triệu trang văn bản, thật dễ hiểu rằng có rất nhiều thông tin cần thiết.

Nhưng nếu các mô hình không thể được giải mã, tại sao chúng ta phải tự hỏi vấn đề vi phạm quyền riêng tư?

Thống trị dữ liệu

“Ai điên có thể yêu cầu được miễn nhiệm vụ bay, nhưng ai yêu cầu được miễn nhiệm vụ bay thì không điên.” – dựa trên tiểu thuyết “Catch 22” của Joseph Heller.

Bản tin đổi mới
Đừng bỏ lỡ những tin tức quan trọng nhất về đổi mới. Đăng ký để nhận chúng qua email.

Việc thu thập dữ liệu ở quy mô lớn để cho phép tạo các dự án như ChatGpt hoặc các dự án tương tự khác ngày nay là đặc quyền của các công ty đa quốc gia lớn, những người, với các hoạt động kỹ thuật số của mình, đã có thể có được kho thông tin lớn nhất trên thế giới: Web.

Google và Microsoft, trong nhiều năm đã quản lý các công cụ tìm kiếm quét Web và ngoại suy lượng thông tin khổng lồ, là những ứng cử viên đầu tiên cho việc tạo ra LLM, mô hình AI duy nhất có khả năng xử lý lượng thông tin như mô tả ở trên.

Thật khó để tin rằng Google hoặc Microsoft có thể che giấu thông tin cá nhân trong dữ liệu của họ trước khi sử dụng nó làm kho dữ liệu trong việc đào tạo mạng lưới thần kinh. Thông tin ẩn danh trong trường hợp hệ thống ngôn ngữ chuyển thành việc nhận dạng dữ liệu cá nhân trong một kho văn bản và thay thế nó bằng dữ liệu giả mạo. Hãy tưởng tượng một kho văn bản có kích thước vài terabyte mà chúng ta muốn huấn luyện một mô hình và hãy thử tưởng tượng xem sẽ cần bao nhiêu công việc để ẩn danh thủ công dữ liệu chứa trong đó: điều đó thực tế là không thể. Nhưng nếu chúng ta muốn dựa vào một thuật toán để thực hiện việc đó một cách tự động thì hệ thống duy nhất có khả năng thực hiện công việc này sẽ là một mô hình lớn và phức tạp không kém khác.

Chúng tôi đang gặp phải một vấn đề kinh điển về Catch-22: “để đào tạo LLM với dữ liệu ẩn danh, chúng tôi cần một LLM có khả năng ẩn danh chúng, nhưng nếu chúng tôi có LLM có khả năng ẩn danh dữ liệu thì việc đào tạo LLM đó không được thực hiện với dữ liệu ẩn danh .”

GDPR đã lỗi thời

GDPR quy định (gần như) trên toàn cầu các quy tắc tôn trọng quyền riêng tư của mọi người, xét về những chủ đề này đã là tin cũ và việc bảo vệ dữ liệu cá nhân liên quan đến tập huấn luyện không được tính đến.

Trong GDPR, việc xử lý dữ liệu cá nhân nhằm mục đích tìm hiểu các mối tương quan và kết nối chung chỉ được quy định một phần bởi Điều 22, trong đó nêu rõ: “Chủ thể dữ liệu có quyền không phải chịu một quyết định chỉ dựa trên việc xử lý tự động, bao gồm cả việc lập hồ sơ, mà tạo ra những hiệu lực pháp lý đối với anh ta hoặc ảnh hưởng đến anh ta theo cách tương tự và đáng kể”.

Bài viết này đưa ra lệnh cấm người kiểm soát dữ liệu sử dụng dữ liệu cá nhân của một chủ thể như một phần của quy trình ra quyết định hoàn toàn tự động có ảnh hưởng pháp lý trực tiếp đến chủ thể đó. Nhưng mạng lưới thần kinh, dễ dàng hòa nhập với các quy trình ra quyết định tự động, một khi được đào tạo sẽ có khả năng đưa ra các quyết định tự động có thể tác động đến cuộc sống của con người. Nhưng những quyết định này không phải lúc nào cũng “hợp lý”. Trên thực tế, trong quá trình đào tạo, mỗi mạng lưới thần kinh học cách liên kết thông tin với nhau, thường liên kết chúng với nhau theo cách hoàn toàn phi tuyến tính. Và sự vắng mặt của “logic” không làm cho công việc trở nên dễ dàng hơn đối với các nhà lập pháp muốn dựng lên một lá chắn để bảo vệ quyền riêng tư của người dân.

Nếu một người cũng chọn áp dụng chính sách cực kỳ hạn chế, ví dụ như cấm sử dụng bất kỳ dữ liệu nhạy cảm nào trừ khi được chủ sở hữu cho phép rõ ràng, thì việc sử dụng hợp pháp mạng lưới thần kinh sẽ là không thể thực hiện được. Và việc từ bỏ các công nghệ mạng lưới thần kinh sẽ là một mất mát lớn, hãy nghĩ đến các mô hình phân tích được đào tạo với dữ liệu lâm sàng của các đối tượng trong một nhóm dân số đã bị ảnh hưởng một phần bởi một căn bệnh cụ thể. Những mô hình này giúp cải thiện các chính sách phòng ngừa bằng cách xác định mối tương quan giữa các yếu tố có trong dữ liệu và bản thân căn bệnh, những mối tương quan không mong đợi mà trong mắt các bác sĩ lâm sàng có thể xuất hiện hoàn toàn phi logic.

Quản lý nhu cầu

Ít nhất, việc đặt ra vấn đề tôn trọng quyền riêng tư của mọi người sau khi cho phép bừa bãi bộ sưu tập của nó trong nhiều năm là đạo đức giả. Bản thân GDPR, với sự phức tạp của nó, chịu trách nhiệm cho nhiều thao tác cho phép có được ủy quyền để xử lý dữ liệu cá nhân bằng cách khai thác sự mơ hồ của các điều khoản và sự khó hiểu.

Chúng ta chắc chắn cần đơn giản hóa luật cho phép áp dụng nó và giáo dục thực sự về việc sử dụng thông tin cá nhân một cách có ý thức.

Đề xuất của tôi là không cho phép các công ty biết dữ liệu cá nhân của người dùng đăng ký dịch vụ của họ, ngay cả khi đó là dịch vụ trả phí. Việc sử dụng dữ liệu cá nhân giả mạo của các cá nhân sẽ tự động xảy ra khi họ sử dụng hệ thống trực tuyến. Việc sử dụng dữ liệu thực chỉ nên giới hạn trong quy trình mua hàng, đảm bảo rằng dữ liệu đó luôn tách biệt hoàn toàn với cơ sở dữ liệu dịch vụ.

Biết được sở thích và sở thích của đối tượng mà không cho phép liên kết tên hoặc khuôn mặt với hồ sơ này sẽ hoạt động như một hình thức ẩn danh được thực hiện ngược dòng, tự động cho phép thu thập dữ liệu và sử dụng chúng trong các hệ thống tự động hóa như trí tuệ nhân tạo.

Bài báo của Gianfranco Fedele