लेख

गोपनीयता लूप: गोपनीयता र प्रतिलिपि अधिकारको भूलभुलैयामा कृत्रिम बुद्धिमत्ताहरू

यो दुई लेखहरू मध्ये पहिलो हो जसमा मैले एकातिर गोपनीयता र प्रतिलिपि अधिकार बीचको नाजुक सम्बन्धलाई सम्बोधन गर्छु, र अर्कोतिर कृत्रिम बुद्धिमत्ता।

एउटा समस्याग्रस्त सम्बन्ध जहाँ प्राविधिक विकास यति छिटो साबित भइरहेको छ कि कुनै पनि नियामक समायोजनलाई यसको पहिलो अनुप्रयोगबाट अप्रचलित बनाउन।

जनताको अधिकार र व्यक्तिगत तथ्याङ्कलाई सम्बोधन गर्ने काँटेदार मुद्दाहरूलाई सम्बोधन गर्न ध्यान, योग्यता र हाम्रो समयका बुद्धिजीवी र विशेषज्ञहरू बीचको अपरिहार्य छलफल आवश्यक छ। प्राविधिक आविष्कारहरूले हामीलाई खडा गर्ने चुनौतिहरूको लागि सामाजिक नियमहरू अनुकूलन गर्न हामी पर्याप्त छिटो छैनौं भनेर हामीले पत्ता लगाइरहेका छौं। उदीयमान टेक्नोलोजीहरूले आफ्नो आवेदनलाई सीमित गर्ने नियमहरूको पूर्ण अभावमा, नोक्सान गर्न स्वतन्त्र र त्यसैले पूर्ण दण्डहीनताका साथ त्यसो गर्नका लागि खुला क्षेत्रमा काम गरिरहेको पाउँछ।

के वैज्ञानिक अनुसन्धान र यसको रणनीतिक उद्देश्यहरूमा प्राविधिक विकासको श्रृंखला फिर्ता जाने नियन्त्रणको कल्पना गर्न सम्भव छ?

के व्यक्तिगत स्वतन्त्रताको लागि दृढ सम्मान कायम राख्दै हाम्रो प्रजातिको विकासलाई शासन गर्न सम्भव छ?

गोपनीयता?

“जति धेरै लुकाउने प्रयास गर्नुहुन्छ, त्यति नै ध्यान आकर्षित गर्नुहुन्छ। तपाईंको बारेमा कसैलाई थाहा नहुनु किन यति महत्त्वपूर्ण छ?" - एन्ड्रयू निकोल द्वारा लिखित र निर्देशित फिल्म "एनोन" बाट - 2018

चलचित्रमा "anon2018 को, भविष्यको समाज एक अँध्यारो ठाउँ हो, ईथर नामक विशाल कम्प्युटर प्रणालीको प्रत्यक्ष नियन्त्रणमा, राष्ट्रको हरेक कुनालाई यसलाई जनसंख्या गर्ने मानिसहरूको आँखाबाट अवलोकन गरेर निगरानी गर्न सक्षम छ। प्रत्येक मानिस ईथरको तर्फबाट एक निरीक्षक हो र तिनीहरूको पहिलो जिम्मेवारी हो, निस्सन्देह, आफैं र तिनीहरूको व्यवहारको निगरानी गर्नु।

ईथर पुलिस बलहरूको सबैभन्दा राम्रो सहयोगी हो: ईथर मार्फत, एजेन्टहरूले कुनै पनि व्यक्तिको अनुभवलाई आफ्नै आँखाले रिलिभ गरेर र कुनै पनि प्रकारको अपराध समाधान गर्न सक्छन्।

पुलिस अफिसर साल आश्चर्यचकित छन् कि तपाईंले आफ्नो गोपनीयताको रक्षा गर्न किन लड्नु पर्छ: जब तपाईंसँग लुक्ने कुनै कारण छैन भने के मतलब छ? जे भए पनि, हाम्रो घर र सडकहरूको सुरक्षा बढाउन हामीले निर्माण गर्ने प्रविधिहरूलाई सुरक्षाको लागि सोध्ने मानिसहरूको हितमा त्यस्ता जानकारीको रेकर्डिङ, अनुगमन र प्रमाणीकरण आवश्यक पर्ने युगमा, हामी कसरी ग्यारेन्टी गर्ने आशा गर्न सक्छौं? तिनीहरूको गोपनीयता?

अरूको जीवनमा पहुँच हुनु कत्ति खतरनाक छ भनेर देखाउनको लागि, ह्याकरले ईथरको नियन्त्रण लिनेछ र लाखौं मानिसहरूको जीवनमा भयानक दुःस्वप्न आउनेछ: असहाय दर्शकको रूपमा हेर्ने खतरा सबैभन्दा धेरै छविहरू। तिनीहरूको जीवनको पीडादायी क्षणहरू, तिनीहरूको रेटिनामा प्रत्यक्ष प्रसारण।

लूप

Le कृत्रिम तंत्रिका नेटवर्कहरू जसले आधुनिक आर्टिफिसियल इन्टेलिजेन्सको कार्यलाई निहित राख्छ, तीन मुख्य तत्वको वरिपरि घुम्छ: आधारभूत जानकारी अन्यथा भनिन्छ। कोरस, संयुक्त राष्ट्र एल्गोरिदम जानकारी को आत्मसात को लागी र एक स्मृति उनीहरूको सम्झनाको लागि।

एल्गोरिदम मेमोरीमा जानकारीको साधारण लोडिङमा सीमित छैन, यसले तिनीहरूलाई एकअर्कासँग सम्बन्धित तत्वहरूको खोजीमा स्क्यान गर्दछ। डाटा र सम्बन्धहरूको मिश्रण मेमोरीमा स्थानान्तरण गरिनेछ जुन ए बन्नेछ टेम्पलेट.

एक मोडेल भित्र, डेटा र सम्बन्धहरू पूर्णतया अविभाज्य छन्, त्यसैले प्रशिक्षित तंत्रिका नेटवर्कबाट मौलिक प्रशिक्षण जानकारी कोषको पुन: निर्माण लगभग असम्भव छ।

यो विशेष गरी सत्य हो जब कोषहरूमा ठूलो मात्रामा डाटा हुन्छ। यो ठूला भाषिक प्रणालीको मामला हो जसलाई भनिन्छ Large Language Models (छोटोको लागि LLM) कुख्यात ChatGpt सहित। तिनीहरूले प्रशिक्षणमा प्रयोग हुने जानकारीको ठूलो मात्रामा उनीहरूको प्रभावकारितालाई ऋणी राख्छन्: हाल राम्रो प्रशिक्षणलाई कम्तिमा केही टेराबाइट डेटा चाहिन्छ र एक टेराबाइट 90 बिलियन क्यारेक्टरहरूसँग मेल खान्छ, लगभग 75 मिलियन पृष्ठ पाठ, यो सजिलै बुझ्न सकिन्छ। यति धेरै जानकारी आवश्यक छ।

तर यदि मोडेलहरू डि-इन्जिनियर गर्न सकिँदैन भने, हामीले किन गोपनीयता उल्लङ्घनको समस्या आफैलाई सोध्ने?

डाटा प्रभुत्व

"जो पागल छ उसले उडान मिसनबाट छुट पाउनको लागि सोध्न सक्छ, तर जसले उडान मिसनबाट छुट माग्छ त्यो पागल होइन।" - जोसेफ हेलर द्वारा उपन्यास "क्याच 22" मा आधारित।

नवाचार न्यूजलेटर
नवीनता मा सबैभन्दा महत्त्वपूर्ण समाचार नछुटाउनुहोस्। तिनीहरूलाई ईमेल द्वारा प्राप्त गर्न साइन अप गर्नुहोस्।

ChatGpt वा अन्य समान परियोजनाहरू सिर्जना गर्न अनुमति दिनको लागि यस्तो आकारको डाटा सङ्कलन आज ठूला बहुराष्ट्रिय कम्पनीहरूको विशेषाधिकार हो जसले आफ्नो डिजिटल गतिविधिहरूद्वारा, सूचनाको सबैभन्दा ठूलो भण्डारमा आफ्नो हात प्राप्त गर्न सक्षम भएका छन्। संसारमा: वेब।

गुगल र माइक्रोसफ्ट, जसले वर्षौंदेखि वेब स्क्यान गर्ने र धेरै मात्रामा जानकारी निकाल्ने खोज इन्जिनहरू व्यवस्थित गरेका छन्, LLM को निर्माणका लागि पहिलो उम्मेद्वारहरू हुन्, माथि वर्णन गरिएका जानकारीको मात्रा पचाउन सक्षम एआई मोडेलहरू।

यो विश्वास गर्न गाह्रो छ कि गुगल वा माइक्रोसफ्टले एक तंत्रिका नेटवर्कलाई प्रशिक्षण दिन कोषको रूपमा प्रयोग गर्नु अघि उनीहरूको डेटामा व्यक्तिगत जानकारी अस्पष्ट गर्न सक्षम हुनेछ। भाषिक प्रणालीको मामलामा अज्ञात जानकारीले कोर्पस भित्र व्यक्तिगत डेटाको पहिचान र नक्कली डेटाको साथ यसको प्रतिस्थापनमा अनुवाद गर्दछ। केही टेराबाइटको आकारको कर्पसको कल्पना गरौं जसको साथ हामी एउटा मोडेललाई तालिम दिन चाहन्छौं र यसमा रहेको डाटालाई म्यानुअल रूपमा गुमनाम गर्न कति काम आवश्यक छ भनेर कल्पना गर्ने प्रयास गरौं: यो व्यावहारिक रूपमा असम्भव हुनेछ। तर यदि हामी यसलाई स्वचालित रूपमा गर्न एल्गोरिदममा भर पर्न चाहन्छौं भने, यो काम गर्न सक्षम एक मात्र प्रणाली अर्को समान रूपमा ठूलो र परिष्कृत मोडेल हुनेछ।

हामी एक क्लासिक क्याच-२२ समस्याको उपस्थितिमा छौं: "अनामीकृत डाटाको साथ LLM लाई तालिम दिन हामीलाई यसलाई गुमनाम गर्न सक्षम LLM चाहिन्छ, तर यदि हामीसँग डाटा गुमाउन सक्ने LLM छ भने, यसको प्रशिक्षण बेनामी डाटाको साथ गरिएको थिएन। ।"

GDPR अप्रचलित छ

GDPR जसले (लगभग) विश्वव्यापी रूपमा मानिसहरूको गोपनीयतालाई सम्मान गर्ने नियमहरू निर्धारण गर्दछ, यी विषयहरूको प्रकाशमा पहिले नै पुरानो समाचार हो र प्रशिक्षण सेटमा संलग्न व्यक्तिगत डेटाको सुरक्षालाई विचार गरिएको छैन।

GDPR मा, सामान्य सहसंबंध र जडानहरू सिक्ने उद्देश्यका लागि व्यक्तिगत डेटा प्रशोधन गर्न केवल धारा 22 द्वारा आंशिक रूपमा विनियमित गरिएको छ जसमा भनिएको छ: "डेटा विषयलाई पूर्ण रूपमा स्वचालित प्रशोधनमा आधारित निर्णयको अधीनमा नहुने अधिकार छ, जसमा प्रोफाइलिङ सहित। उसमा कानुनी प्रभाव उत्पन्न गर्दछ वा जसले उसलाई समान र महत्त्वपूर्ण तरिकामा असर गर्छ।"

यस लेखले डेटा नियन्त्रकहरूलाई पूर्ण रूपमा स्वचालित निर्णय प्रक्रियाको भागको रूपमा विषयको व्यक्तिगत डेटा प्रयोग गर्न प्रतिबन्धको परिचय दिन्छ जुन विषयमा प्रत्यक्ष कानुनी प्रभावहरू छन्। तर स्नायु नेटवर्कहरू, स्वचालित निर्णय प्रक्रियाहरूमा सजिलैसँग मिल्न सकिने, एक पटक प्रशिक्षित भएपछि मानिसहरूको जीवनमा प्रभाव पार्ने स्वचालित निर्णयहरू गर्ने क्षमता प्राप्त हुन्छ। तर यी निर्णयहरू सधैं "तार्किक" हुँदैनन्। प्रशिक्षणको क्रममा, वास्तवमा, प्रत्येक तंत्रिका नेटवर्कले एकअर्कासँग जानकारी सम्बद्ध गर्न सिक्छ, प्रायः तिनीहरूलाई एक अर्कासँग पूर्ण रूपमा गैर-रैखिक रूपमा सम्बन्धित गर्दछ। र "तर्क" को अनुपस्थितिले जनताको गोपनीयताको रक्षामा ढाल खडा गर्न चाहने विधायकको लागि काम सजिलो बनाउँदैन।

यदि कसैले एक अत्यन्त प्रतिबन्धित नीति लागू गर्न रोज्यो भने, उदाहरणका लागि मालिकले स्पष्ट रूपमा अधिकृत नगरेसम्म कुनै पनि संवेदनशील डेटाको प्रयोगलाई निषेध गर्ने, न्यूरल नेटवर्कहरूको कानुनी प्रयोग अव्यावहारिक हुनेछ। र न्यूरल नेटवर्क टेक्नोलोजीहरू छोड्नु ठूलो नोक्सान हुनेछ, केवल एक विशेष रोगबाट आंशिक रूपमा प्रभावित जनसंख्याको विषयहरूको क्लिनिकल डेटाको साथ प्रशिक्षित विश्लेषण मोडेलहरूको बारेमा सोच्नुहोस्। यी मोडेलहरूले डेटामा उपस्थित तत्वहरू र रोग आफैं बीचको सम्बन्ध पहिचान गरेर रोकथाम नीतिहरू सुधार गर्न मद्दत गर्दछ, अप्रत्याशित सम्बन्धहरू जुन चिकित्सकहरूको नजरमा पूर्णतया अतार्किक देखिन सक्छ।

व्यवस्थापन आवश्यकताहरू

वर्षौंसम्म यसको संग्रहलाई अन्धाधुन्ध रूपमा अधिकार दिएपछि मानिसहरूको गोपनीयताको सम्मान गर्ने समस्या खडा गर्नु कम्तिमा भन्नु कपटी हो। GDPR यसको जटिलताको साथमा धेरै हेरफेरहरूको लागि जिम्मेवार छ जसले खण्डहरूको अस्पष्टता र बुझ्ने कठिनाइको शोषण गरेर व्यक्तिगत डेटा प्रशोधन गर्न प्राधिकरण प्राप्त गर्न अनुमति दिन्छ।

हामीलाई पक्कै पनि कानूनको सरलीकरण चाहिन्छ जसले यसलाई लागू गर्न अनुमति दिन्छ र व्यक्तिगत जानकारीको सचेत प्रयोगमा वास्तविक शिक्षा दिन्छ।

मेरो प्रस्ताव कम्पनीहरूलाई तिनीहरूको सेवाहरूको लागि दर्ता गर्ने प्रयोगकर्ताहरूको व्यक्तिगत डेटा थाहा पाउन अनुमति नदिने हो, तिनीहरू सशुल्क सेवाहरू भए पनि। निजी व्यक्तिहरूले नक्कली व्यक्तिगत डाटाको प्रयोग स्वचालित रूपमा हुनुपर्दछ जब उनीहरूले अनलाइन प्रणालीहरू प्रयोग गर्छन्। वास्तविक डाटाको प्रयोग केवल खरिद प्रक्रियामा मात्र सीमित हुनुपर्छ, यो सुनिश्चित गर्दै कि यो सेवा डाटाबेसबाट सधैं पूर्ण रूपमा अलग छ।

यस प्रोफाइलसँग नाम वा अनुहार जोड्न अनुमति नदिई विषयको स्वाद र प्राथमिकताहरू थाहा पाउँदा अपस्ट्रीम गरिएको अज्ञातीकरणको रूपमा कार्य गर्दछ जसले स्वचालित रूपमा डेटा सङ्कलन गर्न र कृत्रिम बुद्धिमत्ता जस्ता स्वचालन प्रणालीहरूमा तिनीहरूको प्रयोगलाई अनुमति दिन्छ।

आर्टिकोलो डि Gianfranco Fedele