लेख

गोपनीयता लूप: गोपनीयता आणि कॉपीराइटच्या चक्रव्यूहात कृत्रिम बुद्धिमत्ता

हा दोन लेखांपैकी पहिला लेख आहे ज्यात मी एकीकडे गोपनीयता आणि कॉपीराइट यांच्यातील नाजूक नातेसंबंध आणि दुसरीकडे कृत्रिम बुद्धिमत्ता यावर चर्चा करतो.

एक समस्याप्रधान संबंध जेथे तांत्रिक उत्क्रांती इतकी जलद सिद्ध होत आहे की कोणत्याही नियामक समायोजनास त्याच्या पहिल्या अनुप्रयोगापासून अप्रचलित केले जाऊ शकते.

लोकांचे हक्क आणि वैयक्तिक डेटाचा समावेश असलेल्या काटेरी समस्यांचे निराकरण करण्यासाठी आमच्या काळातील बुद्धिजीवी आणि विशेषज्ञ यांच्यात लक्ष, क्षमता आणि अपरिहार्य चर्चा आवश्यक आहे. आम्‍ही शोधत आहोत की, तांत्रिक नवकल्पनांमध्‍ये आपल्‍यासमोर उभ्या राहिलेल्‍या आव्‍हानांशी सामाजिक नियमांशी जुळवून घेण्‍यात आम्‍ही पुरेशी जलद नाही. उदयोन्मुख तंत्रज्ञान अधिकाधिकपणे खुल्या मैदानात, त्यांच्या अर्जावर मर्यादा घालणाऱ्या नियमांच्या संपूर्ण अनुपस्थितीत, हानी पोहोचवण्यास मुक्त आणि त्यामुळे संपूर्ण दण्डमुक्तीसह कार्य करताना दिसतात.

तांत्रिक विकासाच्या साखळीला वैज्ञानिक संशोधन आणि त्याच्या धोरणात्मक उद्दिष्टांपर्यंत परत जाणाऱ्या नियंत्रणाची कल्पना करणे शक्य आहे का?

व्यक्तिस्वातंत्र्याचा ठाम आदर राखून आपल्या प्रजातींच्या उत्क्रांतीवर नियंत्रण ठेवणे कल्पक आहे का?

गोपनीयता?

“तुम्ही जितके लपवण्याचा प्रयत्न कराल तितके तुमचे लक्ष वेधून घ्याल. तुमच्याबद्दल कोणालाच माहिती नाही हे इतके महत्त्वाचे का आहे?” - अँड्र्यू निकोल लिखित आणि दिग्दर्शित "अॅनॉन" चित्रपटातून - 2018

चित्रपटात "अॅनोन2018 चा, भविष्यातील समाज ही एक अंधकारमय जागा आहे, इथर नावाच्या अवाढव्य संगणक प्रणालीच्या थेट नियंत्रणाखाली, देशाच्या प्रत्येक कोपऱ्याचे निरीक्षण करून त्याच लोकांच्या डोळ्यांद्वारे त्याचे निरीक्षण करण्यास सक्षम आहे. इथरच्या वतीने प्रत्येक मानव हा पर्यवेक्षक आहे आणि त्यांची पहिली जबाबदारी अर्थातच स्वतःवर आणि त्यांच्या वर्तनावर लक्ष ठेवण्याची आहे.

इथर हा पोलिस दलांचा सर्वोत्तम सहयोगी आहे: इथरद्वारे, एजंट कोणत्याही व्यक्तीचा अनुभव त्यांच्या स्वत: च्या डोळ्यांनी पुन्हा जिवंत करून शोधू शकतात आणि कोणत्याही प्रकारच्या गुन्ह्याची उकल करू शकतात.

तुमच्या गोपनीयतेचे रक्षण करण्यासाठी तुम्ही का लढावे असे पोलिस अधिकारी साल यांना आश्चर्य वाटते: तुमच्याकडे लपण्याचे कारण नसताना काय फायदा? शेवटी, ज्या युगात आम्ही आमच्या घरांची आणि आमच्या रस्त्यांची सुरक्षा वाढवण्यासाठी तयार करत असलेल्या तंत्रज्ञानासाठी अशा माहितीचे रेकॉर्डिंग, देखरेख आणि पडताळणी करणे आवश्यक आहे जे स्वतः संरक्षणाची मागणी करतात त्यांच्या हितासाठी, आम्ही हमी देण्याची अपेक्षा कशी करू शकतो? त्यांची गोपनीयता?

इतरांच्या जीवनात प्रवेश करणे किती धोकादायक आहे हे दाखवण्यासाठी, हॅकर इथरचा ताबा घेईल आणि लाखो लोकांच्या जीवनावर एक भयानक दुःस्वप्न येईल: असहाय्य प्रेक्षक म्हणून पाहण्याची धमकी सर्वात जास्त त्यांच्या आयुष्यातील छळलेले क्षण, थेट त्यांच्या रेटिनामध्ये प्रसारित केले जातात.

लूप

Le कृत्रिम न्यूरल नेटवर्क जे आधुनिक कृत्रिम बुद्धिमत्तेचे कार्य करते, तीन मुख्य घटकांभोवती फिरते: मूलभूत माहिती अन्यथा म्हणतात निधी, यूएन अल्गोरिदम माहितीच्या एकत्रीकरणासाठी आणि एक मेमरी त्यांच्या स्मरणशक्तीसाठी.

अल्गोरिदम मेमरीमध्ये माहितीच्या सामान्य लोडिंगपुरते मर्यादित नाही, ते एकमेकांशी संबंधित घटकांच्या शोधात ते स्कॅन करते. डेटा आणि नातेसंबंधांचे मिश्रण मेमरीमध्ये हस्तांतरित केले जाईल जे तयार होईल टेम्पलेट.

मॉडेलमध्ये, डेटा आणि संबंध पूर्णपणे अभेद्य असतात, म्हणूनच प्रशिक्षित न्यूरल नेटवर्कमधून मूळ प्रशिक्षण माहितीच्या कॉर्पसची पुनर्रचना करणे जवळजवळ अशक्य आहे.

हे विशेषतः खरे आहे जेव्हा कॉर्पसमध्ये मोठ्या प्रमाणात डेटा असतो. म्हणून ओळखल्या जाणार्‍या मोठ्या भाषिक प्रणालींचे हे प्रकरण आहे Large Language Models (थोडक्यात LLM) कुप्रसिद्ध ChatGpt सह. प्रशिक्षणात वापरल्या जाणार्‍या मोठ्या प्रमाणावरील माहितीवर त्यांची प्रभावीता कारणीभूत आहे: सध्या चांगल्या प्रशिक्षणासाठी किमान काही टेराबाइट डेटा आवश्यक आहे आणि एक टेराबाइट 90 अब्ज वर्णांशी संबंधित आहे, अंदाजे 75 दशलक्ष पृष्ठांचा मजकूर, हे समजणे सोपे आहे की तेथे आहे. खूप माहिती हवी आहे.

परंतु जर मॉडेल डी-इंजिनियर केले जाऊ शकत नाहीत, तर आपण स्वतःला गोपनीयतेच्या उल्लंघनाची समस्या का विचारावी?

डेटा वर्चस्व

"जो कोणी वेडा आहे तो फ्लाइट मिशनमधून सूट मिळण्यास सांगू शकतो, परंतु जो कोणी फ्लाइट मिशनमधून सूट मिळण्यास सांगेल तो वेडा नाही." - जोसेफ हेलरच्या "कॅच 22" कादंबरीवर आधारित.

इनोव्हेशन वृत्तपत्र
नवोपक्रमावरील सर्वात महत्त्वाच्या बातम्या चुकवू नका. त्यांना ईमेलद्वारे प्राप्त करण्यासाठी साइन अप करा.

ChatGpt किंवा इतर तत्सम प्रकल्पांच्या निर्मितीला परवानगी देण्यासाठी एवढ्या आकाराच्या डेटाचे संकलन हे आज मोठ्या बहुराष्ट्रीय कंपन्यांचे विशेषाधिकार आहे, ज्या त्यांच्या डिजिटल क्रियाकलापांद्वारे, माहितीच्या सर्वात मोठ्या भांडारावर हात मिळवू शकल्या आहेत. जगात: वेब.

गुगल आणि मायक्रोसॉफ्ट, ज्यांनी अनेक वर्षांपासून वेब स्कॅन करणारी आणि प्रचंड प्रमाणात माहिती एक्स्ट्रापोलेट करणारी सर्च इंजिने व्यवस्थापित केली आहेत, LLM च्या निर्मितीसाठी प्रथम उमेदवार आहेत, वर वर्णन केलेल्या माहितीची मात्रा पचवण्यास सक्षम असलेले एकमेव AI मॉडेल आहेत.

न्यूरल नेटवर्कला प्रशिक्षण देण्यासाठी कॉर्पस म्हणून वापरण्यापूर्वी Google किंवा Microsoft त्यांच्या डेटामधील वैयक्तिक माहिती अस्पष्ट करू शकतील यावर विश्वास ठेवणे कठीण आहे. भाषिक प्रणालींच्या बाबतीत अनामिक माहितीचे भाषांतर कॉर्पसमधील वैयक्तिक डेटाची ओळख आणि बनावट डेटासह त्याच्या बदल्यात होते. चला काही टेराबाइट्सच्या आकाराच्या कॉर्पसची कल्पना करूया ज्याद्वारे आपल्याला मॉडेलचे प्रशिक्षण द्यायचे आहे आणि त्यात असलेला डेटा मॅन्युअली अनामित करण्यासाठी किती काम करावे लागेल याची कल्पना करण्याचा प्रयत्न करूया: हे व्यावहारिकदृष्ट्या अशक्य आहे. परंतु जर आम्हाला ते आपोआप करण्यासाठी अल्गोरिदमवर अवलंबून राहायचे असेल, तर हे कार्य करण्यास सक्षम असलेली एकमेव प्रणाली दुसरे तितकेच मोठे आणि अत्याधुनिक मॉडेल असेल.

आम्ही क्लासिक कॅच-22 समस्येच्या उपस्थितीत आहोत: “निनावी डेटासह LLM ला प्रशिक्षित करण्यासाठी आम्हाला तो अनामित करण्यास सक्षम LLM आवश्यक आहे, परंतु आमच्याकडे डेटा अनामित करण्यास सक्षम LLM असल्यास, त्याचे प्रशिक्षण अनामित डेटासह केले जात नाही. ."

GDPR अप्रचलित आहे

GDPR जे लोकांच्या गोपनीयतेचा आदर करण्यासाठी जागतिक स्तरावर (जवळजवळ) नियम ठरवते, या विषयांच्या प्रकाशात आधीच जुन्या बातम्या आहेत आणि प्रशिक्षण सेटमध्ये समाविष्ट असलेल्या वैयक्तिक डेटाच्या संरक्षणाचा विचार केला जात नाही.

GDPR मध्ये, सामान्य सहसंबंध आणि कनेक्शन शिकण्याच्या उद्देशाने वैयक्तिक डेटावर प्रक्रिया करणे केवळ कलम 22 द्वारे अंशतः नियंत्रित केले जाते ज्यामध्ये असे म्हटले आहे: “डेटा विषयाला प्रोफाइलिंगसह केवळ स्वयंचलित प्रक्रियेवर आधारित निर्णय घेण्याचा अधिकार आहे, जे त्याच्यावर कायदेशीर प्रभाव निर्माण करतो किंवा ज्याचा त्याच्यावर समान आणि महत्त्वपूर्ण मार्गाने परिणाम होतो."

हा लेख पूर्णपणे स्वयंचलित निर्णय प्रक्रियेचा भाग म्हणून डेटा नियंत्रकांना विषयाचा वैयक्तिक डेटा वापरण्यास प्रतिबंधित करतो ज्याचा विषयावर थेट कायदेशीर परिणाम होतो. परंतु तंत्रिका नेटवर्क, स्वयंचलित निर्णय प्रक्रियेस सहजतेने आत्मसात करता येते, एकदा प्रशिक्षित झाल्यावर लोकांच्या जीवनावर परिणाम करणारे स्वयंचलित निर्णय घेण्याची क्षमता प्राप्त करतात. परंतु हे निर्णय नेहमीच "तार्किक" नसतात. प्रशिक्षणादरम्यान, खरं तर, प्रत्येक न्यूरल नेटवर्क एकमेकांशी माहिती जोडण्यास शिकते, बहुतेकदा ती पूर्णपणे नॉन-लाइनर पद्धतीने एकमेकांशी संबंधित असतात. आणि लोकांच्या गोपनीयतेच्या रक्षणासाठी ढाल उभी करू इच्छिणार्‍या आमदारासाठी "लॉजिक" नसल्यामुळे काम सोपे होत नाही.

जर एखाद्याने अत्यंत प्रतिबंधात्मक धोरण लागू करणे देखील निवडले असेल, उदाहरणार्थ मालकाद्वारे स्पष्टपणे अधिकृत केल्याशिवाय कोणताही संवेदनशील डेटा वापरण्यास मनाई करणे, न्यूरल नेटवर्कचा कायदेशीर वापर अव्यवहार्य असेल. आणि न्यूरल नेटवर्क तंत्रज्ञान सोडणे हे एक मोठे नुकसान होईल, फक्त एखाद्या विशिष्ट रोगाने अंशतः प्रभावित झालेल्या लोकसंख्येच्या विषयांच्या क्लिनिकल डेटासह प्रशिक्षित विश्लेषण मॉडेल्सचा विचार करा. ही मॉडेल्स डेटामधील घटक आणि रोग यांच्यातील परस्परसंबंध ओळखून प्रतिबंधक धोरणे सुधारण्यास मदत करतात, अनपेक्षित सहसंबंध जे डॉक्टरांच्या दृष्टीने पूर्णपणे अतार्किक वाटू शकतात.

व्यवस्थापित गरजा

वर्षानुवर्षे बिनदिक्कतपणे संग्रह अधिकृत केल्यानंतर लोकांच्या गोपनीयतेचा आदर करण्याची समस्या निर्माण करणे हे किमान म्हणणे दांभिक आहे. GDPR स्वतःच त्याच्या जटिलतेसह असंख्य हाताळणीसाठी जबाबदार आहे जे कलमांच्या अस्पष्टतेचा आणि समजून घेण्याच्या अडचणीचा फायदा घेऊन वैयक्तिक डेटावर प्रक्रिया करण्यासाठी अधिकृतता प्राप्त करण्यास अनुमती देते.

आम्हाला कायद्याच्या सुलभीकरणाची नक्कीच गरज आहे ज्यामुळे त्याची लागू होण्यास आणि वैयक्तिक माहितीच्या जाणीवपूर्वक वापराचे खरे शिक्षण मिळू शकेल.

माझा प्रस्ताव कंपन्यांना त्यांच्या सेवांसाठी नोंदणी करणार्‍या वापरकर्त्यांचा वैयक्तिक डेटा जाणून घेऊ देऊ नये, जरी ते सशुल्क सेवा असले तरीही. खाजगी व्यक्तींद्वारे बनावट वैयक्तिक डेटाचा वापर जेव्हा ते ऑनलाइन सिस्टम वापरतात तेव्हा आपोआपच घडला पाहिजे. वास्तविक डेटाचा वापर केवळ खरेदी प्रक्रियेपुरताच मर्यादित असावा, याची खात्री करून की तो नेहमी सेवा डेटाबेसपासून पूर्णपणे वेगळा आहे.

या प्रोफाइलशी नाव किंवा चेहरा संबद्ध न करता विषयाची अभिरुची आणि प्राधान्ये जाणून घेणे अपस्ट्रीम केले जाणारे अज्ञातीकरणाचे एक प्रकार म्हणून कार्य करेल जे स्वयंचलितपणे डेटाचे संकलन आणि कृत्रिम बुद्धिमत्ता सारख्या ऑटोमेशन सिस्टममध्ये त्यांचा वापर करण्यास अनुमती देईल.

आर्टिकोलो डी Gianfranco Fedele

इनोव्हेशन वृत्तपत्र
नवोपक्रमावरील सर्वात महत्त्वाच्या बातम्या चुकवू नका. त्यांना ईमेलद्वारे प्राप्त करण्यासाठी साइन अप करा.

अलीकडील लेख

भविष्य येथे आहे: शिपिंग उद्योग जागतिक अर्थव्यवस्थेत कशी क्रांती घडवत आहे

नौदल क्षेत्र ही एक खरी जागतिक आर्थिक शक्ती आहे, ज्याने 150 अब्जांच्या बाजारपेठेकडे नेव्हिगेट केले आहे...

1 मे 2024

आर्टिफिशियल इंटेलिजन्सद्वारे प्रक्रिया केलेल्या माहितीच्या प्रवाहाचे नियमन करण्यासाठी प्रकाशक आणि OpenAI करारांवर स्वाक्षरी करतात

गेल्या सोमवारी, फायनान्शिअल टाईम्सने OpenAI सह करार जाहीर केला. FT ने त्याच्या जागतिक दर्जाच्या पत्रकारितेचा परवाना…

30 एप्रिल 2024

ऑनलाइन पेमेंट: स्ट्रीमिंग सेवा तुम्हाला कायमचे पैसे कसे देतात ते येथे आहे

लाखो लोक स्ट्रीमिंग सेवांसाठी पैसे देतात, मासिक सदस्यता शुल्क भरतात. असे सामान्य मत आहे की आपण…

29 एप्रिल 2024

Veeam मध्ये रॅन्समवेअरसाठी सर्वात व्यापक समर्थन, संरक्षणापासून प्रतिसाद आणि पुनर्प्राप्तीपर्यंत वैशिष्ट्ये आहेत

Veeam द्वारे Coveware सायबर खंडणी घटना प्रतिसाद सेवा प्रदान करणे सुरू ठेवेल. Coveware फॉरेन्सिक आणि उपाय क्षमता प्रदान करेल…

23 एप्रिल 2024

तुमच्या भाषेत इनोव्हेशन वाचा

इनोव्हेशन वृत्तपत्र
नवोपक्रमावरील सर्वात महत्त्वाच्या बातम्या चुकवू नका. त्यांना ईमेलद्वारे प्राप्त करण्यासाठी साइन अप करा.

आमचे अनुसरण करा