लेख

वेक्टर डेटाबेस काय आहेत, ते कसे कार्य करतात आणि संभाव्य बाजार

वेक्टर डेटाबेस हा डेटाबेसचा एक प्रकार आहे जो उच्च-आयामी वेक्टर म्हणून डेटा संग्रहित करतो, जे वैशिष्ट्ये किंवा गुणधर्मांचे गणितीय प्रतिनिधित्व आहेत.

हे वेक्टर सामान्यतः मजकूर, प्रतिमा, ऑडिओ, व्हिडिओ आणि इतर सारख्या कच्च्या डेटावर एम्बेडिंग फंक्शन लागू करून व्युत्पन्न केले जातात.

वेक्टर डेटाबेस असू शकतात definite एक साधन म्हणून जे मेटाडेटा फिल्टरिंग आणि क्षैतिज स्केलिंग सारख्या वैशिष्ट्यांसह, द्रुत पुनर्प्राप्ती आणि समानता शोधासाठी वेक्टर एम्बेड्स अनुक्रमित आणि संग्रहित करते.

सामग्री सारणी

अंदाजे वाचन वेळ: 9 मिनुती

गुंतवणूकदारांची वाढती आवड

अलिकडच्या आठवड्यात, वेक्टर डेटाबेसमध्ये गुंतवणूकदारांच्या स्वारस्यामध्ये वाढ झाली आहे. 2023 च्या सुरुवातीपासून आमच्या लक्षात आले आहे की:

वेक्टर डेटाबेस स्टार्टअप विणणे त्याने मिळवले मालिका B निधीमध्ये $50 दशलक्ष;
पिनकोन $100 दशलक्ष मूल्यांकनावर मालिका B निधीमध्ये $750 दशलक्ष जमा केले;
क्रोमा , एक मुक्त स्त्रोत प्रकल्प, त्याच्या एम्बेडिंग डेटाबेससाठी $18 दशलक्ष जमा केले;

वेक्टर डेटाबेस काय आहेत ते अधिक तपशीलवार पाहू.

डेटा प्रतिनिधित्व म्हणून वेक्टर

वेक्टर डेटाबेसेस व्हेक्टर एम्बेडिंगवर मोठ्या प्रमाणात अवलंबून असतात, एक प्रकारचा डेटा प्रस्तुतीकरण ज्यामध्ये AI ला समजून घेण्यासाठी आणि जटिल क्रियाकलाप चालवताना दीर्घकालीन स्मृती राखण्यासाठी आवश्यक असलेली अर्थपूर्ण माहिती असते.

वेक्टर एम्बेड

वेक्टर एम्बेड हे नकाशासारखे असतात, परंतु जगात गोष्टी कोठे आहेत हे दाखवण्याऐवजी ते आपल्याला दर्शवतात की गोष्टी कुठे आहेत वेक्टर जागा. वेक्टर स्पेस हे एक मोठे खेळाचे मैदान आहे जिथे प्रत्येक गोष्टीला खेळण्यासाठी जागा असते. कल्पना करा की तुमच्याकडे प्राण्यांचा एक समूह आहे: एक मांजर, एक कुत्रा, एक पक्षी आणि एक मासा. आम्ही प्रत्येक प्रतिमेला खेळाच्या मैदानावर एक विशेष स्थान देऊन एक वेक्टर एम्बेड तयार करू शकतो. मांजर एका कोपर्यात असू शकते, कुत्रा दुसऱ्या बाजूला. पक्षी आकाशात असू शकतात आणि मासे तलावात असू शकतात. ही जागा बहुआयामी जागा आहे. प्रत्येक परिमाण त्यांच्या विविध पैलूंशी संबंधित आहे, उदाहरणार्थ, माशांना पंख असतात, पक्ष्यांना पंख असतात, मांजरी आणि कुत्र्यांना पाय असतात. त्यांचा आणखी एक पैलू असा असू शकतो की मासे पाण्याचे, पक्षी प्रामुख्याने आकाशात आणि मांजर आणि कुत्रे जमिनीवर. एकदा आपल्याकडे हे सदिश आले की, त्यांच्या समानतेच्या आधारे त्यांचे गट करण्यासाठी आपण गणिती तंत्रे वापरू शकतो. आमच्याकडे असलेल्या माहितीच्या आधारे,

तर, वेक्टर एम्बेडिंग हे नकाशासारखे असतात जे आम्हाला वेक्टर स्पेसमधील गोष्टींमधील समानता शोधण्यात मदत करतात. ज्याप्रमाणे नकाशा आपल्याला जगाला नेव्हिगेट करण्यात मदत करतो, त्याचप्रमाणे वेक्टर एम्बेड्स वेक्टर खेळाच्या मैदानावर नेव्हिगेट करण्यात मदत करतात.

मुख्य कल्पना अशी आहे की एम्बेड्स जे शब्दार्थाने एकमेकांशी समान असतात त्यांच्यामध्ये कमी अंतर असते. ते किती समान आहेत हे शोधण्यासाठी, आम्ही व्हेक्टर अंतर फंक्शन्स वापरू शकतो जसे की युक्लिडियन अंतर, कोसाइन अंतर इ.

वेक्टर डेटाबेस वि वेक्टर लायब्ररी

वेक्टर लायब्ररी समानता शोध करण्यासाठी, मेमरीमधील निर्देशांकांमध्ये वेक्टरचे एम्बेडिंग संचयित करा. वेक्टर लायब्ररीमध्ये खालील वैशिष्ट्ये/मर्यादा आहेत:

फक्त वेक्टर साठवा : वेक्टर लायब्ररी केवळ वेक्टर्सचे एम्बेडिंग संग्रहित करतात आणि ज्या वस्तूंपासून ते निर्माण केले गेले होते त्या संबंधित वस्तू नाहीत. याचा अर्थ असा की जेव्हा आम्ही क्वेरी करतो, तेव्हा वेक्टर लायब्ररी संबंधित व्हेक्टर आणि ऑब्जेक्ट आयडीसह प्रतिसाद देईल. हे मर्यादित आहे कारण वास्तविक माहिती ऑब्जेक्टमध्ये संग्रहित केली जाते आणि आयडीमध्ये नाही. या समस्येचे निराकरण करण्यासाठी, आपण वस्तू दुय्यम स्टोरेजमध्ये संग्रहित केल्या पाहिजेत. त्यानंतर आम्ही क्वेरीद्वारे परत केलेले आयडी वापरू शकतो आणि परिणाम समजून घेण्यासाठी त्यांना ऑब्जेक्टशी जुळवू शकतो.
निर्देशांक डेटा अपरिवर्तनीय आहे : वेक्टर लायब्ररीद्वारे निर्मित अनुक्रमणिका अपरिवर्तनीय असतात. याचा अर्थ असा की एकदा आम्ही आमचा डेटा आयात केला आणि अनुक्रमणिका तयार केली की, आम्ही कोणतेही बदल करू शकत नाही (कोणतेही नवीन घालणे, हटवणे किंवा बदल नाही). आमच्या निर्देशांकात बदल करण्यासाठी, आम्हाला ते सुरवातीपासून पुन्हा तयार करावे लागेल
आयात प्रतिबंधित करताना क्वेरी : डेटा आयात करताना बहुतेक वेक्टर लायब्ररींची चौकशी केली जाऊ शकत नाही. आम्हाला आमचे सर्व डेटा ऑब्जेक्ट्स प्रथम आयात करावे लागतील. त्यामुळे वस्तू आयात केल्यानंतर निर्देशांक तयार केला जातो. ही अशा अनुप्रयोगांसाठी समस्या असू शकते ज्यांना लाखो किंवा अगदी अब्जावधी वस्तू आयात करणे आवश्यक आहे.

अनेक वेक्टर शोध लायब्ररी उपलब्ध आहेत: फेसबुकचा FAISS, त्रासदायक Spotify द्वारे आणि स्कॅन करा Google द्वारे. FAISS क्लस्टरिंग पद्धत वापरते, Annoy झाडे वापरते आणि ScanNN वेक्टर कॉम्प्रेशन वापरते. प्रत्येकासाठी एक परफॉर्मन्स ट्रेड-ऑफ आहे, जो आम्ही आमच्या ऍप्लिकेशन आणि परफॉर्मन्स मेट्रिक्सच्या आधारे निवडू शकतो.

CRUD

वेक्टर लायब्ररीपासून वेक्टर डेटाबेस वेगळे करणारे मुख्य वैशिष्ट्य म्हणजे डेटा संग्रहित करणे, अद्यतनित करणे आणि हटवणे. वेक्टर डेटाबेसमध्ये CRUD समर्थन आहे पूर्ण (तयार करा, वाचा, अद्यतनित करा आणि हटवा) जे वेक्टर लायब्ररीच्या मर्यादांचे निराकरण करते.

वेक्टर आणि वस्तू संग्रहित करा : डेटाबेस डेटा ऑब्जेक्ट्स आणि व्हेक्टर दोन्ही संग्रहित करू शकतात. दोन्ही संग्रहित असल्याने, आम्ही संरचित फिल्टरसह वेक्टर शोध एकत्र करू शकतो. फिल्टर आम्हाला हे सुनिश्चित करण्यास अनुमती देतात की सर्वात जवळचे शेजारी मेटाडेटा फिल्टरशी जुळतात.
परिवर्तनशीलता : वेक्टर डेटाबेस पूर्णपणे समर्थन म्हणून कच्चा, आम्ही आमच्या इंडेक्समध्ये नोंदी तयार केल्यानंतर सहजपणे जोडू, काढू किंवा अपडेट करू शकतो. सतत बदलणाऱ्या डेटासह काम करताना हे विशेषतः उपयुक्त आहे.
रिअल-टाइम शोध : वेक्टर लायब्ररीच्या विपरीत, डेटाबेस आम्हाला आयात प्रक्रियेदरम्यान आमच्या डेटाची चौकशी आणि बदल करण्यास परवानगी देतात. आम्‍ही लाखो ऑब्‍जेक्‍ट लोड केल्‍याने, इंपोर्ट केलेला डेटा पूर्णत: प्रवेशयोग्य आणि कार्यान्वित राहतो, म्‍हणून तुम्‍हाला आधीपासून जे आहे त्यावर कार्य करण्‍यासाठी इंपोर्ट पूर्ण होण्‍याची प्रतीक्षा करावी लागणार नाही.

थोडक्यात, मागील मुद्द्यांमध्ये चर्चा केल्याप्रमाणे वेक्टर डेटाबेस स्वयं-समाविष्ट वेक्टर निर्देशांकांच्या मर्यादांना संबोधित करून वेक्टर एम्बेड्स हाताळण्यासाठी एक उत्कृष्ट उपाय प्रदान करतो.

पण वेक्टर डेटाबेस पारंपारिक डेटाबेसपेक्षा श्रेष्ठ कशामुळे होतो?

वेक्टर डेटाबेस विरुद्ध पारंपारिक डेटाबेस

पारंपारिक डेटाबेस रिलेशनल मॉडेल्सचा वापर करून संरचित डेटा संग्रहित करण्यासाठी आणि पुनर्प्राप्त करण्यासाठी डिझाइन केलेले आहेत, याचा अर्थ ते कॉलम आणि डेटाच्या पंक्तींवर आधारित क्वेरीसाठी ऑप्टिमाइझ केलेले आहेत. पारंपारिक डेटाबेसमध्ये वेक्टर एम्बेडिंग संचयित करणे शक्य असले तरी, हे डेटाबेस वेक्टर ऑपरेशन्ससाठी ऑप्टिमाइझ केलेले नाहीत आणि मोठ्या डेटासेटवर समानता शोध किंवा इतर जटिल ऑपरेशन्स कार्यक्षमतेने करू शकत नाहीत.

याचे कारण असे की पारंपारिक डेटाबेस साध्या डेटा प्रकारांवर आधारित अनुक्रमणिका तंत्र वापरतात, जसे की स्ट्रिंग किंवा संख्या. ही इंडेक्सिंग तंत्र वेक्टर डेटासाठी योग्य नाहीत, ज्यात उच्च परिमाण आहे आणि विशेष इंडेक्सिंग तंत्रे आवश्यक आहेत जसे की इनव्हर्टेड इंडेक्सेस किंवा स्पेसियल ट्री.

तसेच, पारंपारिक डेटाबेस मोठ्या प्रमाणात असंरचित किंवा अर्ध-संरचित डेटा हाताळण्यासाठी डिझाइन केलेले नाहीत जे सहसा वेक्टर एम्बेडशी संबंधित असतात. उदाहरणार्थ, प्रतिमा किंवा ऑडिओ फाइलमध्ये लाखो डेटा पॉइंट असू शकतात, जे पारंपारिक डेटाबेस कार्यक्षमतेने हाताळू शकत नाहीत.

वेक्टर डेटाबेस, दुसरीकडे, वेक्टर डेटा संग्रहित करण्यासाठी आणि पुनर्प्राप्त करण्यासाठी विशेषतः डिझाइन केलेले आहेत आणि मोठ्या डेटासेटवर समानता शोध आणि इतर जटिल ऑपरेशन्ससाठी ऑप्टिमाइझ केलेले आहेत. ते उच्च-आयामी डेटासह कार्य करण्यासाठी डिझाइन केलेली विशेष अनुक्रमणिका तंत्रे आणि अल्गोरिदम वापरतात, ते वेक्टर एम्बेड्स संचयित करण्यासाठी आणि पुनर्प्राप्त करण्यासाठी पारंपारिक डेटाबेसपेक्षा अधिक कार्यक्षम बनवतात.

आता तुम्ही व्हेक्टर डेटाबेसबद्दल बरेच काही वाचले आहे, तुम्हाला कदाचित आश्चर्य वाटेल, ते कसे कार्य करतात? चला पाहुया.

वेक्टर डेटाबेस कसा कार्य करतो?

रिलेशनल डेटाबेस कसे कार्य करतात हे आपल्या सर्वांना माहित आहे: ते पंक्ती आणि स्तंभांमध्ये स्ट्रिंग, संख्या आणि इतर प्रकारचे स्केलर डेटा संग्रहित करतात. दुसरीकडे, व्हेक्टर डेटाबेस व्हेक्टरवर चालतो, त्यामुळे ते ऑप्टिमाइझ करण्याची आणि चौकशी करण्याची पद्धत अगदी वेगळी आहे.

पारंपारिक डेटाबेसमध्ये, आम्ही सहसा डेटाबेसमधील पंक्तींसाठी क्वेरी करतो जिथे मूल्य सामान्यतः आमच्या क्वेरीशी जुळते. व्हेक्टर डेटाबेसमध्ये, आम्ही आमच्या क्वेरीशी सर्वात समान असलेले वेक्टर शोधण्यासाठी समानता मेट्रिक लागू करतो.

वेक्टर डेटाबेस अनेक अल्गोरिदमचे संयोजन वापरतो जे सर्व जवळच्या शेजारी शोध (ANN) मध्ये भाग घेतात. हे अल्गोरिदम हॅशिंग, क्वांटायझेशन किंवा आलेख-आधारित शोधाद्वारे शोध ऑप्टिमाइझ करतात.

हे अल्गोरिदम एका पाइपलाइनमध्ये एकत्र केले जातात जे क्वेरी केलेल्या वेक्टरच्या शेजारी जलद आणि अचूक पुनर्प्राप्ती प्रदान करतात. व्हेक्टर डेटाबेस अंदाजे परिणाम प्रदान करत असल्याने, आम्ही विचार करतो मुख्य ट्रेडऑफ अचूकता आणि वेग यामधील आहेत. परिणाम जितका अधिक तंतोतंत असेल तितकी क्वेरी हळू होईल. तथापि, एक चांगली प्रणाली जवळच्या-परिपूर्ण अचूकतेसह अल्ट्रा-फास्ट शोध प्रदान करू शकते.

अनुक्रमणिका : वेक्टर डेटाबेस PQ, LSH किंवा HNSW सारखे अल्गोरिदम वापरून वेक्टर अनुक्रमित करतो. ही पायरी वेक्टरला डेटा स्ट्रक्चरसह जोडते ज्यामुळे जलद शोध घेता येईल.
प्रश्न : वेक्टर डेटाबेस सर्वात जवळचे शेजारी शोधण्यासाठी डेटासेटमधील अनुक्रमित वेक्टरच्या अनुक्रमित क्वेरी वेक्टरची तुलना करतो (त्या निर्देशांकाद्वारे वापरलेले समानता मेट्रिक लागू करणे)
पोस्ट-प्रोसेसिंग : काही प्रकरणांमध्ये, वेक्टर डेटाबेस डेटासेटमधून अंतिम जवळचे शेजारी आणतो आणि अंतिम परिणाम परत करण्यासाठी त्यांना पोस्ट-प्रक्रिया करतो. या चरणात भिन्न समानता माप वापरून जवळच्या शेजाऱ्यांचे पुनर्वर्गीकरण समाविष्ट असू शकते.

फायदे

व्हेक्टर डेटाबेस हे समानता शोध आणि मोठ्या डेटा सेटवरील इतर जटिल ऑपरेशन्ससाठी एक शक्तिशाली साधन आहे, जे पारंपारिक डेटाबेस वापरून प्रभावीपणे केले जाऊ शकत नाही. कार्यात्मक वेक्टर डेटाबेस तयार करण्यासाठी, एम्बेड आवश्यक आहेत, कारण ते डेटाचा अर्थपूर्ण अर्थ कॅप्चर करतात आणि अचूक समानता शोध सक्षम करतात. वेक्टर लायब्ररींच्या विपरीत, व्हेक्टर डेटाबेसेस आमच्या वापराच्या केसमध्ये बसण्यासाठी डिझाइन केलेले आहेत, ते अनुप्रयोगांसाठी आदर्श बनवतात जेथे कार्यप्रदर्शन आणि स्केलेबिलिटी महत्त्वपूर्ण आहे. मशीन लर्निंग आणि आर्टिफिशियल इंटेलिजन्सच्या वाढीसह, व्हेक्टर डेटाबेस हे शिफारसी प्रणाली, इमेज सर्च, सिमेंटिक समानता यासह विस्तृत ऍप्लिकेशन्ससाठी अधिक महत्वाचे होत आहेत आणि यादी पुढे जाते. क्षेत्र विकसित होत असताना, आम्ही भविष्यात वेक्टर डेटाबेसचे आणखी नाविन्यपूर्ण अनुप्रयोग पाहण्याची अपेक्षा करू शकतो.

Ercole Palmeri