บทความ

Privacy Loop: ปัญญาประดิษฐ์ในเขาวงกตแห่งความเป็นส่วนตัวและลิขสิทธิ์

นี่เป็นบทความแรกจากสองบทความที่ฉันพูดถึงความสัมพันธ์ที่ละเอียดอ่อนระหว่างความเป็นส่วนตัวและลิขสิทธิ์ในด้านหนึ่งและปัญญาประดิษฐ์ในอีกด้านหนึ่ง

ความสัมพันธ์ที่เป็นปัญหาซึ่งวิวัฒนาการทางเทคโนโลยีพิสูจน์ให้เห็นอย่างรวดเร็วจนทำให้การปรับเปลี่ยนด้านกฎระเบียบล้าสมัยตั้งแต่การใช้งานครั้งแรก

การจัดการกับปัญหายุ่งยากที่เกี่ยวข้องกับสิทธิของประชาชนและข้อมูลส่วนบุคคลต้องได้รับความเอาใจใส่ ความสามารถ และการพูดคุยที่ขาดไม่ได้ระหว่างปัญญาชนและผู้เชี่ยวชาญในยุคของเรา เรากำลังค้นพบว่าเรายังเร็วไม่พอในการปรับกฎเกณฑ์ทางสังคมให้เข้ากับความท้าทายที่นวัตกรรมทางเทคโนโลยีมีต่อเรา เทคโนโลยีเกิดใหม่พบว่าตนเองปฏิบัติงานในพื้นที่เปิดมากขึ้นเรื่อยๆ โดยปราศจากกฎระเบียบที่จำกัดการใช้งาน ไม่มีอิสระที่จะก่อให้เกิดความเสียหาย และดังนั้นจึงไม่ต้องรับโทษโดยสิ้นเชิง

เป็นไปได้ไหมที่จะจินตนาการถึงการควบคุมที่สำรองห่วงโซ่การพัฒนาเทคโนโลยีไปสู่การวิจัยทางวิทยาศาสตร์และวัตถุประสงค์เชิงกลยุทธ์

เป็นไปได้ไหมที่จะควบคุมวิวัฒนาการของสายพันธุ์ของเราในขณะที่ยังคงเคารพเสรีภาพส่วนบุคคลอย่างมั่นคง?

ความเป็นส่วนตัว?

“ยิ่งคุณพยายามซ่อนมากเท่าไหร่ คุณก็ยิ่งดึงดูดความสนใจมากขึ้นเท่านั้น ทำไมการไม่มีใครรู้เกี่ยวกับคุณถึงสำคัญขนาดนี้” – จากภาพยนตร์เรื่อง “อานนท์” เขียนบทและกำกับโดย แอนดรูว์ นิคคอล – 2018

ในหนัง "ไม่ช้า” ในปี 2018 สังคมแห่งอนาคตเป็นสถานที่มืดมนภายใต้การควบคุมโดยตรงของระบบคอมพิวเตอร์ขนาดยักษ์ที่เรียกว่าอีเธอร์ สามารถตรวจสอบทุกมุมของประเทศโดยสังเกตผ่านสายตาของคนกลุ่มเดียวกันที่อาศัยอยู่ มนุษย์ทุกคนเป็นผู้ดูแลในนามของ Ether และแน่นอนว่าความรับผิดชอบอันดับแรกของพวกเขาคือการตรวจสอบตนเองและพฤติกรรมของพวกเขา

Ether เป็นพันธมิตรที่ดีที่สุดของกองกำลังตำรวจ: เจ้าหน้าที่สามารถติดตามประสบการณ์ของบุคคลใดก็ได้ผ่าน Ether โดยสัมผัสประสบการณ์นั้นด้วยตาของตนเองและแก้ไขอาชญากรรมทุกประเภท

เจ้าหน้าที่ตำรวจ Sal สงสัยว่าทำไมคุณควรต่อสู้เพื่อปกป้องความเป็นส่วนตัวของคุณ: จะมีประโยชน์อะไรเมื่อคุณไม่มีเหตุผลที่จะซ่อน? ท้ายที่สุดแล้ว ในยุคที่เทคโนโลยีที่เราสร้างเพื่อเพิ่มความปลอดภัยให้กับบ้านและท้องถนนของเราจำเป็นต้องมีการบันทึก ติดตาม และยืนยันข้อมูลดังกล่าวเพื่อประโยชน์ของผู้ที่ขอความคุ้มครองเอง เราจะคาดหวังการรับประกันได้อย่างไร ความเป็นส่วนตัวของพวกเขา?

เพื่อแสดงให้เห็นว่าการเข้าถึงชีวิตของผู้อื่นนั้นอันตรายเพียงใด แฮกเกอร์จะเข้าควบคุมอีเธอร์ และฝันร้ายอันเลวร้ายจะเข้ามาในชีวิตของผู้คนนับล้าน: ภัยคุกคามจากการต้องเฝ้าดูภาพของผู้ชมที่ทำอะไรไม่ถูกมากที่สุด ช่วงเวลาที่ทรมานในชีวิตของพวกเขา ถ่ายทอดโดยตรงสู่เรตินาของพวกเขา

ห่วง

Le โครงข่ายประสาทเทียม ซึ่งเป็นรากฐานการทำงานของปัญญาประดิษฐ์สมัยใหม่ ประกอบไปด้วยองค์ประกอบหลัก XNUMX ประการ ได้แก่ ข้อมูลพื้นฐานหรือที่เรียกอีกอย่างว่า คลังเป็น ขั้นตอนวิธี เพื่อการดูดซึมข้อมูลและอีกอย่างหนึ่ง หน่วยความจำ เพื่อการท่องจำของพวกเขา

อัลกอริธึมไม่ จำกัด เฉพาะการโหลดข้อมูลซ้ำ ๆ ลงในหน่วยความจำ แต่จะสแกนเพื่อค้นหาองค์ประกอบที่เกี่ยวข้องกัน การผสมผสานของข้อมูลและความสัมพันธ์จะถูกถ่ายโอนไปยังหน่วยความจำซึ่งจะเกิดเป็น แม่แบบ.

ภายในแบบจำลอง ข้อมูลและความสัมพันธ์เป็นสิ่งที่แยกไม่ออกโดยสิ้นเชิง ซึ่งเป็นเหตุผลว่าทำไมการสร้างคลังข้อมูลการฝึกอบรมดั้งเดิมขึ้นมาใหม่จากโครงข่ายประสาทเทียมที่ได้รับการฝึกอบรมจึงแทบจะเป็นไปไม่ได้เลย

โดยเฉพาะอย่างยิ่งเมื่อคลังข้อมูลมีข้อมูลจำนวนมาก นี่เป็นกรณีของระบบภาษาขนาดใหญ่ที่เรียกว่า Large Language Models (เรียกสั้น ๆ ว่า LLM) รวมถึง ChatGpt ที่น่าอับอาย สิ่งเหล่านี้เป็นผลจากความมีประสิทธิผลของข้อมูลจำนวนมากที่ใช้ในการฝึกอบรม: ในปัจจุบันการฝึกอบรมที่ดีต้องใช้ข้อมูลอย่างน้อยสองสามเทราไบต์ และเมื่อพิจารณาว่าหนึ่งเทราไบต์สอดคล้องกับอักขระ 90 พันล้านตัว หรือข้อความประมาณ 75 ล้านหน้า จึงเข้าใจได้ง่ายว่ามี จำเป็นต้องมีข้อมูลมากมาย

แต่หากโมเดลไม่สามารถยกเลิกวิศวกรรมได้ ทำไมเราจึงควรถามตัวเองถึงปัญหาการละเมิดความเป็นส่วนตัว?

การครอบงำข้อมูล

“ใครก็ตามที่บ้าสามารถขอได้รับการยกเว้นจากภารกิจการบินได้ แต่ใครก็ตามที่ขอได้รับการยกเว้นจากภารกิจการบินนั้นไม่ใช่คนบ้า” – อิงจากนวนิยายเรื่อง “Catch 22” โดยโจเซฟ เฮลเลอร์

จดหมายข่าวนวัตกรรม
อย่าพลาดข่าวสารที่สำคัญที่สุดเกี่ยวกับนวัตกรรม ลงทะเบียนเพื่อรับพวกเขาทางอีเมล

การรวบรวมข้อมูลในขนาดที่อนุญาตให้มีการสร้างโครงการ เช่น ChatGpt หรือโครงการอื่นที่คล้ายคลึงกัน ถือเป็นสิทธิพิเศษของบริษัทข้ามชาติขนาดใหญ่ที่สามารถเข้าถึงพื้นที่เก็บข้อมูลที่ใหญ่ที่สุดได้ด้วยกิจกรรมดิจิทัล ในโลก: เว็บ

Google และ Microsoft ซึ่งเป็นเวลาหลายปีได้จัดการเสิร์ชเอ็นจิ้นที่สแกนเว็บและคาดการณ์ข้อมูลจำนวนมหาศาล เป็นตัวเลือกแรกสำหรับการสร้าง LLM ซึ่งเป็นโมเดล AI เพียงตัวเดียวที่สามารถแยกแยะข้อมูลในปริมาณมากดังที่อธิบายไว้ข้างต้น

ไม่น่าเชื่อว่า Google หรือ Microsoft จะสามารถปิดบังข้อมูลส่วนบุคคลในข้อมูลของตนได้ก่อนที่จะใช้เป็นคลังข้อมูลในการฝึกอบรมโครงข่ายประสาทเทียม ข้อมูลที่ไม่ระบุชื่อในกรณีของระบบภาษาจะแปลเป็นการระบุข้อมูลส่วนบุคคลภายในคลังข้อมูลและการแทนที่ด้วยข้อมูลปลอม ลองจินตนาการถึงคลังข้อมูลที่มีขนาดไม่กี่เทราไบต์ซึ่งเราต้องการฝึกแบบจำลอง และลองจินตนาการดูว่าจะต้องทำงานมากเพียงใดในการทำให้ข้อมูลที่มีอยู่เป็นนิรนามด้วยตนเอง ซึ่งแทบจะเป็นไปไม่ได้เลยในทางปฏิบัติ แต่ถ้าเราต้องการที่จะพึ่งพาอัลกอริธึมเพื่อทำมันโดยอัตโนมัติ ระบบเดียวที่สามารถทำงานได้นี้คงเป็นอีกโมเดลที่มีขนาดใหญ่และซับซ้อนพอๆ กัน

เรากำลังเผชิญกับปัญหา Catch-22 แบบคลาสสิก: “ในการฝึกอบรม LLM ด้วยข้อมูลที่ไม่ระบุชื่อ เราจำเป็นต้องมี LLM ที่สามารถลบข้อมูลได้ แต่ถ้าเรามี LLM ที่สามารถลบข้อมูลระบุตัวตนได้ การฝึกอบรมไม่ได้กระทำโดยใช้ข้อมูลที่ไม่ระบุชื่อ . ”

GDPR ล้าสมัยแล้ว

GDPR ซึ่งกำหนดกฎ (เกือบ) ทั่วโลกในการเคารพความเป็นส่วนตัวของผู้คน หัวข้อเหล่านี้ถือเป็นข่าวเก่าแล้ว และไม่ได้คำนึงถึงการปกป้องข้อมูลส่วนบุคคลที่เกี่ยวข้องกับชุดการฝึกอบรม

ใน GDPR การประมวลผลข้อมูลส่วนบุคคลเพื่อวัตถุประสงค์ในการเรียนรู้ความสัมพันธ์ทั่วไปและการเชื่อมต่อได้รับการควบคุมเพียงบางส่วนโดยมาตรา 22 ซึ่งระบุว่า: “เจ้าของข้อมูลมีสิทธิ์ที่จะไม่ตกอยู่ภายใต้การตัดสินใจโดยอาศัยการประมวลผลอัตโนมัติเพียงอย่างเดียว รวมถึงการจัดทำโปรไฟล์ซึ่ง ก่อให้เกิดผลทางกฎหมายแก่เขาหรือซึ่งกระทบต่อเขาในลักษณะเดียวกันและมีนัยสำคัญ"

บทความนี้แนะนำข้อห้ามสำหรับผู้ควบคุมข้อมูลในการใช้ข้อมูลส่วนบุคคลของบุคคลนั้นเป็นส่วนหนึ่งของกระบวนการตัดสินใจอัตโนมัติเต็มรูปแบบซึ่งมีผลกระทบทางกฎหมายโดยตรงต่อบุคคลนั้น แต่โครงข่ายประสาทเทียมที่สามารถดูดซึมได้ง่ายกับกระบวนการตัดสินใจแบบอัตโนมัติ เมื่อได้รับการฝึกอบรมแล้ว จะได้รับความสามารถในการตัดสินใจแบบอัตโนมัติที่อาจส่งผลกระทบต่อชีวิตของผู้คน แต่การตัดสินใจเหล่านี้ไม่ได้ "สมเหตุสมผล" เสมอไป ในระหว่างการฝึกอบรม โครงข่ายประสาทเทียมแต่ละส่วนจะเรียนรู้ที่จะเชื่อมโยงข้อมูลซึ่งกันและกัน ซึ่งมักจะเชื่อมโยงข้อมูลเหล่านั้นเข้าด้วยกันในลักษณะที่ไม่เป็นเชิงเส้นเลย และการไม่มี "ตรรกะ" ไม่ได้ทำให้งานง่ายขึ้นสำหรับผู้บัญญัติกฎหมายที่ต้องการสร้างเกราะป้องกันความเป็นส่วนตัวของประชาชน

หากใครเลือกที่จะใช้นโยบายที่เข้มงวดอย่างยิ่ง เช่น การห้ามการใช้ข้อมูลที่ละเอียดอ่อนใดๆ เว้นแต่จะได้รับอนุญาตอย่างชัดเจนจากเจ้าของ การใช้โครงข่ายประสาทเทียมอย่างถูกกฎหมายจะไม่สามารถทำได้ และการละทิ้งเทคโนโลยีโครงข่ายประสาทเทียมจะเป็นการสูญเสียครั้งใหญ่ ลองนึกถึงแบบจำลองการวิเคราะห์ที่ได้รับการฝึกด้วยข้อมูลทางคลินิกของประชากรที่ได้รับผลกระทบบางส่วนจากโรคใดโรคหนึ่ง แบบจำลองเหล่านี้ช่วยปรับปรุงนโยบายการป้องกันโดยการระบุความสัมพันธ์ระหว่างองค์ประกอบที่มีอยู่ในข้อมูลกับตัวโรค ความสัมพันธ์ที่ไม่คาดคิดซึ่งในสายตาของแพทย์อาจดูเหมือนไร้เหตุผลโดยสิ้นเชิง

การจัดการความต้องการ

การตั้งปัญหาในการเคารพความเป็นส่วนตัวของผู้คนหลังจากอนุญาตให้มีการเก็บรวบรวมข้อมูลอย่างไม่เลือกหน้ามานานหลายปีถือเป็นเรื่องหลอกลวงอย่างยิ่ง GDPR เองที่มีความซับซ้อนมีหน้าที่รับผิดชอบต่อการจัดการหลายอย่างที่อนุญาตให้ได้รับอนุมัติในการประมวลผลข้อมูลส่วนบุคคลโดยการใช้ประโยชน์จากความคลุมเครือของข้อกำหนดและความยากลำบากในการทำความเข้าใจ

แน่นอนว่าเราต้องการความเรียบง่ายของกฎหมายที่อนุญาตให้มีการบังคับใช้และการศึกษาที่แท้จริงเกี่ยวกับการใช้ข้อมูลส่วนบุคคลอย่างมีสติ

ข้อเสนอของฉันคือไม่อนุญาตให้บริษัททราบข้อมูลส่วนบุคคลของผู้ใช้ที่ลงทะเบียนใช้บริการของตน แม้ว่าจะเป็นบริการแบบชำระเงินก็ตาม การใช้ข้อมูลส่วนบุคคลปลอมโดยบุคคลควรเกิดขึ้นโดยอัตโนมัติเมื่อพวกเขาใช้ระบบออนไลน์ การใช้ข้อมูลจริงควรจำกัดอยู่ในกระบวนการจัดซื้อเพียงอย่างเดียว เพื่อให้แน่ใจว่าข้อมูลดังกล่าวจะแยกจากฐานข้อมูลบริการโดยสิ้นเชิงเสมอ

การทราบรสนิยมและความชอบของเรื่องโดยไม่อนุญาตให้เชื่อมโยงชื่อหรือใบหน้ากับโปรไฟล์นี้จะทำหน้าที่เป็นรูปแบบหนึ่งของการทำให้ไม่เปิดเผยตัวตนที่ดำเนินการต้นทาง ซึ่งจะช่วยให้รวบรวมข้อมูลและการใช้งานโดยอัตโนมัติภายในระบบอัตโนมัติ เช่น ปัญญาประดิษฐ์

บทความของ Gianfranco Fedele