लेख

भेक्टर डाटाबेसहरू के हुन्, तिनीहरूले कसरी काम गर्छन् र सम्भावित बजार

भेक्टर डाटाबेस डाटाबेसको एक प्रकार हो जसले डाटालाई उच्च-आयामी भेक्टरहरूको रूपमा भण्डार गर्दछ, जुन सुविधाहरू वा विशेषताहरूको गणितीय प्रतिनिधित्व हो।

यी भेक्टरहरू सामान्यतया पाठ, छविहरू, अडियो, भिडियो, र अन्य जस्ता कच्चा डेटामा इम्बेडिङ प्रकार्यको केही प्रकार लागू गरेर उत्पन्न हुन्छन्।

भेक्टर डाटाबेस हुन सक्छ defiमेटाडेटा फिल्टरिङ र तेर्सो स्केलिङ जस्ता सुविधाहरूको साथ द्रुत पुन: प्राप्ति र समानता खोजको लागि भेक्टर इम्बेडिङहरू अनुक्रमणिका र भण्डारण गर्ने उपकरणको रूपमा नाइटेड।

Tabella dei su Facebook

अनुमानित पढ्ने समय: 9 मिनुटी

बढ्दो लगानीकर्ताको चासो

हालका हप्ताहरूमा, भेक्टर डेटाबेसहरूमा लगानीकर्ताको चासो बढेको छ। 2023 को सुरुदेखि हामीले यो याद गरेका छौं:

भेक्टर डाटाबेस स्टार्टअप बुन्नु उनले प्राप्त गरे सीरीज बी कोषमा $ 50 मिलियन;
पाइनकोन $100 मिलियन मूल्याङ्कनमा शृङ्खला बी कोषमा $750 मिलियन उठायो;
क्रोम , खुला स्रोत परियोजना, यसको इम्बेडिङ डाटाबेसको लागि $18 मिलियन उठायो;

भेक्टर डाटाबेसहरू के हुन् थप विस्तारमा हेरौं।

डेटा प्रतिनिधित्वको रूपमा भेक्टरहरू

भेक्टर डाटाबेसहरू भेक्टर इम्बेडिङमा धेरै निर्भर हुन्छन्, एक प्रकारको डाटा प्रतिनिधित्व जसले AI लाई बुझ्न र जटिल गतिविधिहरू कार्यान्वयन गर्दा आकर्षित गर्न दीर्घकालीन मेमोरी कायम राख्नको लागि महत्त्वपूर्ण सिमेन्टिक जानकारी बोक्छ।

भेक्टर इम्बेड गर्दछ

भेक्टर इम्बेडहरू नक्सा जस्तै हुन्, तर संसारमा चीजहरू कहाँ छन् भनेर देखाउनुको सट्टा, तिनीहरूले हामीलाई देखाउँछन् जहाँ चीजहरू कुनै चीजमा छन्। भेक्टर स्पेस। भेक्टर स्पेस एक प्रकारको ठूलो खेल मैदान हो जहाँ सबै कुरा खेल्ने ठाउँ हुन्छ। कल्पना गर्नुहोस् कि तपाईंसँग जनावरहरूको समूह छ: बिरालो, कुकुर, चरा र माछा। हामी खेल मैदानमा विशेष स्थिति दिएर प्रत्येक छविको लागि भेक्टर इम्बेड सिर्जना गर्न सक्छौं। बिरालो एक कुनामा हुन सक्छ, कुकुर अर्को तिर। चरा आकाशमा हुन सक्छ र माछा पोखरीमा हुन सक्छ। यो ठाउँ बहुआयामिक ठाउँ हो। प्रत्येक आयाम तिनीहरूका विभिन्न पक्षहरूसँग मेल खान्छ, उदाहरणका लागि, माछाका पखेटाहरू छन्, चराहरूसँग पखेटाहरू छन्, बिरालाहरू र कुकुरहरूका खुट्टाहरू छन्। तिनीहरूको अर्को पक्ष माछा पानीमा, चराहरू मुख्यतया आकाशमा र बिरालाहरू र कुकुरहरू जमिनमा हुन सक्छन्। एकचोटि हामीसँग यी भेक्टरहरू भएपछि, हामी तिनीहरूलाई समानताको आधारमा समूहबद्ध गर्न गणितीय प्रविधिहरू प्रयोग गर्न सक्छौं। हामीले राखेका जानकारीका आधारमा,

त्यसोभए, भेक्टर इम्बेडिङहरू नक्सा जस्तै हुन् जसले हामीलाई भेक्टर स्पेसमा चीजहरू बीच समानता पत्ता लगाउन मद्दत गर्दछ। जसरी नक्साले हामीलाई संसार नेभिगेट गर्न मद्दत गर्दछ, भेक्टर इम्बेडहरूले भेक्टर खेल मैदानमा नेभिगेट गर्न मद्दत गर्दछ।

मुख्य विचार यो हो कि इम्बेडहरू जुन एक अर्कासँग सिमेन्टिक रूपमा मिल्दोजुल्दो छन् तिनीहरूको बीचमा सानो दूरी छ। तिनीहरू कत्ति समान छन् भनेर पत्ता लगाउन, हामी भेक्टर दूरी प्रकार्यहरू जस्तै इक्लिडियन दूरी, कोसाइन दूरी, आदि प्रयोग गर्न सक्छौं।

भेक्टर डाटाबेस बनाम भेक्टर लाइब्रेरीहरू

भेक्टर पुस्तकालयहरू समानता खोजहरू गर्नको लागि मेमोरीमा अनुक्रमणिकाहरूमा भेक्टरहरूको एम्बेडिङहरू भण्डार गर्नुहोस्। भेक्टर पुस्तकालयहरूमा निम्न विशेषताहरू/सीमाहरू छन्:

भेक्टरहरू मात्र भण्डार गर्नुहोस् : भेक्टर पुस्तकालयहरूले भेक्टरहरूको एम्बेडिङहरू मात्र भण्डारण गर्छ र सम्बन्धित वस्तुहरू होइन जसबाट तिनीहरू उत्पन्न भएका थिए। यसको मतलब यो हो कि जब हामीले क्वेरी गर्छौं, भेक्टर लाइब्रेरीले सान्दर्भिक भेक्टरहरू र वस्तु आईडीहरूसँग जवाफ दिनेछ। यो सीमित छ किनकि वास्तविक जानकारी वस्तुमा भण्डार गरिएको छ र आईडीमा होइन। यो समस्या समाधान गर्न, हामीले वस्तुहरूलाई माध्यमिक भण्डारणमा भण्डार गर्नुपर्छ। त्यसपछि हामी क्वेरीद्वारा फर्काइएको ID हरू प्रयोग गर्न सक्छौं र परिणामहरू बुझ्नको लागि तिनीहरूलाई वस्तुहरूसँग मिलाउन सक्छौं।
सूचकांक डाटा अपरिवर्तनीय छ : भेक्टर पुस्तकालयहरू द्वारा उत्पादित अनुक्रमणिकाहरू अपरिवर्तनीय छन्। यसको मतलब यो हो कि एक पटक हामीले हाम्रो डेटा आयात गरिसकेपछि र अनुक्रमणिका निर्माण गरिसकेपछि, हामी कुनै पनि परिवर्तन गर्न सक्दैनौं (कुनै नयाँ घुसाउने, मेटाउने वा परिवर्तनहरू छैन)। हाम्रो अनुक्रमणिकामा परिवर्तन गर्न, हामीले यसलाई स्क्र्याचबाट पुन: निर्माण गर्नुपर्नेछ
आयात प्रतिबन्ध गर्दा क्वेरी : डाटा आयात गर्दा धेरै भेक्टर पुस्तकालयहरू क्वेरी गर्न सकिँदैन। हामीले पहिले हाम्रा सबै डाटा वस्तुहरू आयात गर्न आवश्यक छ। त्यसैले वस्तुहरू आयात गरिसकेपछि अनुक्रमणिका सिर्जना हुन्छ। यो लाखौं वा अरबौं वस्तुहरू आयात गर्न आवश्यक पर्ने अनुप्रयोगहरूको लागि समस्या हुन सक्छ।

त्यहाँ धेरै भेक्टर खोज पुस्तकालयहरू उपलब्ध छन्: फेसबुक को FAISS, कष्टप्रद Spotify र द्वारा ScanNN गुगल द्वारा। FAISS ले क्लस्टरिङ विधि प्रयोग गर्दछ, Annoy ले रूखहरू प्रयोग गर्दछ र ScanNN ले भेक्टर कम्प्रेसन प्रयोग गर्दछ। त्यहाँ प्रत्येकको लागि एक प्रदर्शन ट्रेड-अफ छ, जुन हामीले हाम्रो अनुप्रयोग र प्रदर्शन मेट्रिक्सको आधारमा छनौट गर्न सक्छौं।

CRUD

भेक्टर लाइब्रेरीहरूबाट भेक्टर डाटाबेसहरू छुट्याउने मुख्य विशेषता भनेको डाटा संग्रह, अद्यावधिक र मेटाउने क्षमता हो। भेक्टर डाटाबेसहरूमा CRUD समर्थन छ पूरा गर्नुहोस् (सिर्जना गर्नुहोस्, पढ्नुहोस्, अपडेट गर्नुहोस् र मेटाउनुहोस्) जसले भेक्टर पुस्तकालयको सीमितताहरू समाधान गर्दछ।

अभिलेख भेक्टर र वस्तुहरू : डाटाबेसहरूले डाटा वस्तुहरू र भेक्टरहरू भण्डारण गर्न सक्छन्। दुबै भण्डारण भएकाले, हामी भेक्टर खोजलाई संरचित फिल्टरहरूसँग जोड्न सक्छौं। फिल्टरहरूले हामीलाई नजिकको छिमेकीहरू मेटाडेटा फिल्टरसँग मेल खान्छ भनी सुनिश्चित गर्न अनुमति दिन्छ।
परिवर्तनशीलता : भेक्टर डाटाबेसको रूपमा पूर्ण रूपमा समर्थन गर्दछ कच्चा, हामी सजिलैसँग हाम्रो अनुक्रमणिकामा प्रविष्टिहरू थप्न, हटाउन वा अपडेट गर्न सक्छौं यो सिर्जना गरिसकेपछि। यो विशेष गरी उपयोगी छ जब लगातार डाटा परिवर्तन संग काम गर्दछ।
वास्तविक समय खोज : भेक्टर पुस्तकालयहरूको विपरीत, डाटाबेसहरूले हामीलाई आयात प्रक्रियाको क्रममा हाम्रो डाटालाई सोध्न र परिमार्जन गर्न अनुमति दिन्छ। हामीले लाखौं वस्तुहरू लोड गर्दा, आयात गरिएको डाटा पूर्ण रूपमा पहुँचयोग्य र सञ्चालनमा रहन्छ, त्यसैले तपाईंले पहिले नै त्यहाँ भएका कुराहरूमा काम सुरु गर्न आयात पूरा हुनको लागि पर्खनु पर्दैन।

छोटकरीमा, भेक्टर डाटाबेसले अघिल्लो बिन्दुहरूमा छलफल गरिए अनुसार स्व-निहित भेक्टर सूचकांकहरूको सीमितताहरूलाई सम्बोधन गरेर भेक्टर इम्बेडहरू ह्यान्डल गर्नको लागि उत्कृष्ट समाधान प्रदान गर्दछ।

तर कुन कुराले भेक्टर डाटाबेसहरूलाई परम्परागत डाटाबेसहरू भन्दा उच्च बनाउँछ?

भेक्टर डाटाबेस बनाम परम्परागत डाटाबेस

परम्परागत डाटाबेसहरू रिलेसनल मोडेलहरू प्रयोग गरेर संरचित डाटा भण्डारण र पुन: प्राप्त गर्न डिजाइन गरिएको हो, जसको मतलब तिनीहरू स्तम्भहरू र डेटाका पङ्क्तिहरूमा आधारित प्रश्नहरूको लागि अनुकूलित हुन्छन्। परम्परागत डाटाबेसहरूमा भेक्टर इम्बेडिङहरू भण्डारण गर्न सम्भव भए तापनि, यी डाटाबेसहरू भेक्टर सञ्चालनका लागि अप्टिमाइज गरिएका छैनन् र ठूला डाटासेटहरूमा समानता खोजी वा अन्य जटिल कार्यहरू कुशलतापूर्वक गर्न सक्दैनन्।

यो किनभने परम्परागत डाटाबेसहरूले स्ट्रिङ वा नम्बरहरू जस्ता साधारण डेटा प्रकारहरूमा आधारित अनुक्रमणिका प्रविधिहरू प्रयोग गर्छन्। यी अनुक्रमणिका प्रविधिहरू भेक्टर डेटाका लागि उपयुक्त छैनन्, जसमा उच्च आयाम छ र विशेष अनुक्रमणिका प्रविधिहरू जस्तै उल्टो अनुक्रमणिका वा स्थानिय रूखहरू चाहिन्छ।

साथै, परम्परागत डाटाबेसहरू प्रायः भेक्टर इम्बेडहरूसँग सम्बन्धित असंरचित वा अर्ध-संरचित डाटाको ठूलो मात्रालाई ह्यान्डल गर्न डिजाइन गरिएको छैन। उदाहरणका लागि, एउटा छवि वा अडियो फाइलमा लाखौं डाटा पोइन्टहरू हुन सक्छन्, जुन परम्परागत डाटाबेसहरूले कुशलतापूर्वक ह्यान्डल गर्न सक्दैनन्।

अर्कोतर्फ भेक्टर डाटाबेसहरू, विशेष रूपमा भेक्टर डाटा भण्डारण र पुन: प्राप्त गर्न डिजाइन गरिएका छन् र समानता खोजहरू र ठूला डाटासेटहरूमा अन्य जटिल कार्यहरूको लागि अनुकूलित छन्। तिनीहरूले उच्च-आयामी डेटासँग काम गर्न डिजाइन गरिएको विशेष अनुक्रमणिका प्रविधिहरू र एल्गोरिदमहरू प्रयोग गर्छन्, तिनीहरूलाई भेक्टर इम्बेडहरू भण्डारण र पुन: प्राप्त गर्नका लागि परम्परागत डाटाबेसहरू भन्दा धेरै प्रभावकारी बनाउँदछ।

अब तपाईंले भेक्टर डाटाबेसहरूको बारेमा धेरै पढ्नुभएको छ, तपाईं सोचिरहनुभएको हुन सक्छ, तिनीहरूले कसरी काम गर्छन्? एक पटक हेरौं।

भेक्टर डाटाबेसले कसरी काम गर्छ?

हामी सबैलाई थाहा छ कि रिलेशनल डाटाबेसहरूले कसरी काम गर्छ: तिनीहरू पङ्क्तिहरू र स्तम्भहरूमा स्ट्रिङहरू, संख्याहरू, र अन्य प्रकारका स्केलर डेटा भण्डार गर्छन्। अर्कोतर्फ, भेक्टर डाटाबेसले भेक्टरहरूमा काम गर्छ, त्यसैले यसलाई अप्टिमाइज गर्ने र सोध्ने तरिका एकदम फरक छ।

परम्परागत डेटाबेसहरूमा, हामी सामान्यतया डेटाबेसमा पङ्क्तिहरूको लागि क्वेरी गर्छौं जहाँ मान सामान्यतया हाम्रो क्वेरीसँग मिल्छ। भेक्टर डाटाबेसहरूमा, हामी हाम्रो क्वेरीसँग मिल्दोजुल्दो भेक्टर फेला पार्नको लागि समानता मेट्रिक लागू गर्छौं।

भेक्टर डाटाबेसले धेरै एल्गोरिदमहरूको संयोजन प्रयोग गर्दछ जुन सबै नजिकको छिमेकी खोज (ANN) मा भाग लिन्छन्। यी एल्गोरिदमहरूले ह्यासिङ, क्वान्टाइजेसन वा ग्राफ-आधारित खोजद्वारा खोजलाई अनुकूलन गर्दछ।

यी एल्गोरिदमहरू एक पाइपलाइनमा भेला हुन्छन् जसले क्वेरी गरिएको भेक्टरको छिमेकीहरूको छिटो र सही पुन: प्राप्ति प्रदान गर्दछ। भेक्टर डाटाबेसले अनुमानित नतिजाहरू प्रदान गर्ने भएकोले, हामीले विचार गर्ने मुख्य ट्रेडअफहरू शुद्धता र गतिको बीचमा छन्। नतिजा जति सटीक हुन्छ, क्वेरी त्यति नै ढिलो हुनेछ। जे होस्, राम्रो प्रणालीले निकट-सही सटीकताको साथ अल्ट्रा-छिटो खोजी प्रदान गर्न सक्छ।

अनुक्रमणिका : भेक्टर डाटाबेसले PQ, LSH वा HNSW जस्ता एल्गोरिदम प्रयोग गरेर भेक्टरहरूलाई अनुक्रमणिका गर्छ। यो चरणले भेक्टरहरूलाई डेटा संरचनासँग सम्बद्ध गर्दछ जसले छिटो खोजी गर्न अनुमति दिन्छ।
प्रश्न : भेक्टर डाटाबेसले निकटतम छिमेकीहरू फेला पार्न डेटासेटमा अनुक्रमित भेक्टरहरू विरुद्ध अनुक्रमित क्वेरी भेक्टर तुलना गर्दछ (त्यो अनुक्रमणिकाले प्रयोग गरेको समानता मेट्रिक लागू गर्दै)
पोस्ट-प्रोसेसिङ : कतिपय अवस्थामा, भेक्टर डाटाबेसले डेटासेटबाट अन्तिम नजिकका छिमेकीहरू ल्याउँछ र तिनीहरूलाई अन्तिम नतिजाहरू फर्काउन पोस्ट-प्रक्रिया गर्दछ। यो चरणमा फरक समानता मापन प्रयोग गरेर निकटतम छिमेकीहरूलाई पुन: वर्गीकरण गर्न समावेश हुन सक्छ।

लाभ

भेक्टर डाटाबेसहरू समानता खोजहरू र ठूला डाटा सेटहरूमा अन्य जटिल कार्यहरूका लागि शक्तिशाली उपकरण हुन्, जुन परम्परागत डाटाबेसहरू प्रयोग गरेर प्रभावकारी रूपमा प्रदर्शन गर्न सकिँदैन। कार्यात्मक भेक्टर डाटाबेस निर्माण गर्न, इम्बेडहरू आवश्यक छन्, किनकि तिनीहरूले डाटाको सिमान्टिक अर्थ क्याप्चर गर्छन् र सही समानता खोजहरू सक्षम पार्छन्। भेक्टर पुस्तकालयहरूको विपरीत, भेक्टर डाटाबेसहरू हाम्रो प्रयोगको अवस्थामा फिट गर्न डिजाइन गरिएका छन्, तिनीहरूलाई अनुप्रयोगहरूको लागि आदर्श बनाउँदै जहाँ कार्यसम्पादन र स्केलेबिलिटी महत्वपूर्ण हुन्छ। मेसिन लर्निङ र आर्टिफिसियल इन्टेलिजेन्सको वृद्धिसँगै भेक्टर डाटाबेसहरू सिफारिसकर्ता प्रणालीहरू, छवि खोजी, सिमान्टिक समानता र सूची जारी लगायतका अनुप्रयोगहरूको विस्तृत दायराका लागि बढ्दो रूपमा महत्त्वपूर्ण हुँदै गइरहेका छन्। क्षेत्र विकसित हुन जारी राख्दै, हामी भविष्यमा भेक्टर डाटाबेसहरूको अझ बढी नवीन अनुप्रयोगहरू हेर्ने आशा गर्न सक्छौं।

Ercole Palmeri