بضائع

ما هي قواعد بيانات المتجهات وكيف تعمل والسوق المحتمل

قاعدة بيانات المتجه هي نوع من قواعد البيانات التي تخزن البيانات كمتجهات عالية الأبعاد ، وهي تمثيلات رياضية للميزات أو السمات.

يتم إنشاء هذه المتجهات عادةً عن طريق تطبيق نوع من وظيفة التضمين على البيانات الأولية ، مثل النص والصور والصوت والفيديو وغيرها.

يمكن أن تكون قواعد بيانات المتجهات definite كأداة تقوم بفهرسة وتخزين التضمينات المتجهة للاسترجاع السريع والبحث عن التشابه ، مع ميزات مثل تصفية البيانات الوصفية والقياس الأفقي.

تابيلا دي كونتينوتي

وقت القراءة المقدر: 9 دقيقة

تزايد اهتمام المستثمرين

في الأسابيع الأخيرة ، كان هناك زيادة في اهتمام المستثمرين بقواعد بيانات المتجهات. منذ بداية عام 2023 لاحظنا ما يلي:

بدء تشغيل قاعدة بيانات متجه نسج الحصول عليها 50 مليون دولار في تمويل المجموعة ب;
كوز الصنوبر جمعت 100 مليون دولار من تمويل السلسلة ب بتقييم 750 مليون دولار؛
صفاء ، وهو مشروع مفتوح المصدر، جمع 18 مليون دولار لتضمين قاعدة بياناته؛

دعونا نرى بمزيد من التفصيل ما هي قواعد بيانات المتجهات.

النواقل لتمثيل البيانات

تعتمد قواعد بيانات المتجه بشكل كبير على تضمين المتجهات ، وهو نوع من تمثيل البيانات يحمل في داخله المعلومات الدلالية الحاسمة للذكاء الاصطناعي لاكتساب الفهم والحفاظ على الذاكرة طويلة المدى للاستفادة منها عند تنفيذ الأنشطة المعقدة.

تضمين المتجهات

إن تضمين المتجهات يشبه الخريطة ، ولكن بدلاً من إظهار مكان الأشياء في العالم ، فإنها توضح لنا مكان وجود الأشياء في شيء يسمى ناقلات الفضاء. مساحة المتجهات هي نوع من ملعب كبير حيث كل شيء له مكانه للعب. تخيل أن لديك مجموعة من الحيوانات: قطة وكلب وطائر وسمكة. يمكننا إنشاء متجه مضمن لكل صورة من خلال إعطائها موقعًا خاصًا في الملعب. قد تكون القطة في زاوية والكلب على الجانب الآخر. يمكن أن يكون الطائر في السماء والأسماك يمكن أن تكون في البركة. هذا المكان فضاء متعدد الأبعاد. يتوافق كل بُعد مع جوانب مختلفة منها ، على سبيل المثال ، الأسماك لها زعانف ، والطيور لها أجنحة ، والقطط والكلاب لها أرجل. قد يكون جانب آخر منها أن الأسماك تنتمي إلى الماء ، والطيور أساسًا إلى السماء ، والقطط والكلاب على الأرض. بمجرد أن نحصل على هذه المتجهات ، يمكننا استخدام الأساليب الرياضية لتجميعها بناءً على تشابهها. بناءً على المعلومات التي نحتفظ بها ،

لذا ، فإن عمليات تضمين المتجهات تشبه الخريطة التي تساعدنا في إيجاد التشابه بين الأشياء في الفضاء المتجه. مثلما تساعدنا الخريطة في التنقل في العالم ، تساعد تضمين المتجهات في التنقل في ملعب المتجه.

الفكرة الأساسية هي أن التضمينات المتشابهة لغويًا مع بعضها البعض لها مسافة أصغر بينها. لمعرفة مدى تشابههما ، يمكننا استخدام دوال المسافة المتجهة مثل المسافة الإقليدية ، ومسافة جيب التمام ، وما إلى ذلك.

قواعد بيانات المتجهات مقابل مكتبات المتجهات

مكتبات المتجهات تخزين حفلات الزفاف للناقلات في الفهارس في الذاكرة ، من أجل إجراء عمليات بحث عن التشابه. مكتبات المتجهات لها الخصائص / القيود التالية:

نواقل المتجر فقط : تخزن مكتبات المتجهات فقط عمليات دمج المتجهات وليس الكائنات المرتبطة التي تم إنشاؤها منها. هذا يعني أنه عندما نقوم بالاستعلام ، ستستجيب مكتبة المتجهات بالمتجهات ومعرفات الكائنات ذات الصلة. هذا مقيد لأن المعلومات الفعلية مخزنة في الكائن وليس المعرف. لحل هذه المشكلة ، يجب علينا تخزين الأشياء في التخزين الثانوي. يمكننا بعد ذلك استخدام المعرفات التي يتم إرجاعها بواسطة الاستعلام ومطابقتها مع الكائنات لفهم النتائج.
بيانات الفهرس غير قابلة للتغيير : الفهارس التي تنتجها مكتبات المتجهات غير قابلة للتغيير. هذا يعني أنه بمجرد استيراد بياناتنا وإنشاء الفهرس ، لا يمكننا إجراء أي تغييرات (لا توجد إدخالات أو عمليات حذف أو تغييرات جديدة). لإجراء تغييرات على فهرسنا ، سيتعين علينا إعادة بنائه من البداية
الاستعلام أثناء تقييد الاستيراد : لا يمكن الاستعلام عن معظم مكتبات المتجهات أثناء استيراد البيانات. نحتاج إلى استيراد جميع كائنات البيانات لدينا أولاً. لذلك يتم إنشاء الفهرس بعد استيراد العناصر. يمكن أن يكون هذا مشكلة للتطبيقات التي تتطلب ملايين أو حتى مليارات العناصر ليتم استيرادها.

هناك العديد من مكتبات البحث المتجهية المتاحة: FAISS of Facebook، إزعاج بواسطة Spotify و ScanNN من جوجل. يستخدم FAISS طريقة التجميع ، ويستخدم Annoy الأشجار ويستخدم ScanNN ضغط المتجهات. هناك مقايضة أداء لكل منها ، والتي يمكننا اختيارها بناءً على مقاييس التطبيق والأداء لدينا.

CRUD

الميزة الرئيسية التي تميز قواعد بيانات المتجه عن مكتبات المتجهات هي القدرة على أرشفة البيانات وتحديثها وحذفها. قواعد بيانات المتجهات لديها دعم CRUD إكمال (إنشاء وقراءة وتحديث وحذف) يحل قيود مكتبة المتجهات.

أرشفة النواقل والأشياء : يمكن لقواعد البيانات تخزين كائنات البيانات والمتجهات. نظرًا لأنه يتم تخزين كلاهما ، يمكننا دمج البحث المتجه مع المرشحات المنظمة. تسمح لنا المرشحات بالتأكد من مطابقة أقرب الجيران لمرشح البيانات الوصفية.
التحولية : كقواعد بيانات متجهية تدعم بشكل كامل الخام يمكننا بسهولة إضافة أو إزالة أو تحديث الإدخالات في فهرسنا بعد إنشائه. هذا مفيد بشكل خاص عند العمل مع البيانات المتغيرة باستمرار.
البحث في الوقت الحقيقي : على عكس مكتبات المتجهات ، تسمح لنا قواعد البيانات بالاستعلام عن بياناتنا وتعديلها أثناء عملية الاستيراد. نظرًا لأننا نقوم بتحميل ملايين العناصر ، تظل البيانات المستوردة قابلة للوصول والتشغيل بشكل كامل ، لذلك لا يتعين عليك الانتظار حتى يكتمل الاستيراد لبدء العمل على ما هو موجود بالفعل.

باختصار ، توفر قاعدة بيانات المتجهات حلاً فائقًا لمعالجة تضمين المتجهات من خلال معالجة قيود مؤشرات المتجهات المستقلة كما تمت مناقشتها في النقاط السابقة.

ولكن ما الذي يجعل قواعد بيانات المتجهات متفوقة على قواعد البيانات التقليدية؟

قواعد بيانات المتجهات مقابل قواعد البيانات التقليدية

تم تصميم قواعد البيانات التقليدية لتخزين واسترداد البيانات المنظمة باستخدام النماذج العلائقية ، مما يعني أنها مُحسّنة للاستعلامات القائمة على أعمدة وصفوف البيانات. في حين أنه من الممكن تخزين عمليات تضمين المتجهات في قواعد البيانات التقليدية ، فإن قواعد البيانات هذه ليست محسّنة لعمليات المتجهات ولا يمكنها إجراء عمليات بحث عن التشابه أو عمليات معقدة أخرى على مجموعات البيانات الكبيرة بكفاءة.

وذلك لأن قواعد البيانات التقليدية تستخدم تقنيات الفهرسة بناءً على أنواع البيانات البسيطة ، مثل السلاسل أو الأرقام. تقنيات الفهرسة هذه ليست مناسبة لبيانات المتجه ، التي لها أبعاد عالية وتتطلب تقنيات فهرسة متخصصة مثل الفهارس المقلوبة أو الأشجار المكانية.

أيضًا ، لم يتم تصميم قواعد البيانات التقليدية للتعامل مع كميات كبيرة من البيانات غير المهيكلة أو شبه المهيكلة المرتبطة غالبًا بتضمينات المتجهات. على سبيل المثال ، يمكن أن يحتوي ملف صورة أو ملف صوتي على ملايين نقاط البيانات ، والتي لا تستطيع قواعد البيانات التقليدية معالجتها بكفاءة.

من ناحية أخرى ، تم تصميم قواعد بيانات المتجهات خصيصًا لتخزين واسترداد بيانات المتجه وتم تحسينها لعمليات البحث عن التشابه والعمليات المعقدة الأخرى على مجموعات البيانات الكبيرة. يستخدمون تقنيات وخوارزميات فهرسة متخصصة مصممة للعمل مع البيانات عالية الأبعاد ، مما يجعلها أكثر كفاءة من قواعد البيانات التقليدية لتخزين واسترجاع تضمين المتجهات.

الآن بعد أن قرأت الكثير عن قواعد بيانات المتجهات ، قد تتساءل ، كيف تعمل؟ لنلقي نظرة.

كيف تعمل قاعدة بيانات المتجه؟

نعلم جميعًا كيفية عمل قواعد البيانات العلائقية: فهي تخزن سلاسل وأرقام وأنواع أخرى من البيانات العددية في صفوف وأعمدة. من ناحية أخرى ، تعمل قاعدة بيانات المتجهات على المتجهات ، لذا فإن طريقة تحسينها والاستعلام عنها مختلفة تمامًا.

في قواعد البيانات التقليدية ، نقوم عادةً بالاستعلام عن الصفوف في قاعدة البيانات حيث تتطابق القيمة عادةً مع استعلامنا تمامًا. في قواعد بيانات المتجه ، نطبق مقياس تشابه للعثور على متجه يشبه إلى حد كبير استعلامنا.

تستخدم قاعدة بيانات المتجه مجموعة من الخوارزميات المتعددة التي تشارك جميعها في البحث المجاور الأقرب (ANN). تعمل هذه الخوارزميات على تحسين البحث عن طريق التجزئة أو التكميم أو البحث المستند إلى الرسم البياني.

يتم تجميع هذه الخوارزميات في خط أنابيب يوفر استردادًا سريعًا ودقيقًا لجيران المتجه الذي تم الاستعلام عنه. نظرًا لأن قاعدة بيانات المتجه توفر نتائج تقريبية ، فإن المقايضات الرئيسية التي نأخذها في الاعتبار هي بين الدقة والسرعة. كلما كانت النتيجة أكثر دقة ، كان الاستعلام أبطأ. ومع ذلك ، يمكن أن يوفر النظام الجيد بحثًا فائق السرعة بدقة شبه مثالية.

الفهرسة : تقوم قاعدة بيانات المتجهات بفهرسة النواقل باستخدام خوارزمية مثل PQ أو LSH أو HNSW. تربط هذه الخطوة المتجهات بهيكل البيانات الذي سيسمح بإجراء بحث أسرع.
سؤال : تقارن قاعدة بيانات المتجهات متجه الاستعلام المفهرس مقابل المتجهات المفهرسة في مجموعة البيانات للعثور على أقرب الجيران (تطبيق مقياس تشابه يستخدمه هذا الفهرس)
المعالجة البعدية : في بعض الحالات ، تجلب قاعدة بيانات المتجه أقرب الجيران النهائيين من مجموعة البيانات وتعالجها لاحقًا لإرجاع النتائج النهائية. قد تتضمن هذه الخطوة إعادة تصنيف أقرب الجيران باستخدام مقياس تشابه مختلف.

فوائد

تعد قواعد بيانات المتجهات أداة قوية لعمليات البحث عن التشابه والعمليات المعقدة الأخرى على مجموعات البيانات الكبيرة ، والتي لا يمكن إجراؤها بفعالية باستخدام قواعد البيانات التقليدية. لبناء قاعدة بيانات متجهية وظيفية ، تعتبر التضمينات ضرورية ، لأنها تلتقط المعنى الدلالي للبيانات وتمكن عمليات بحث تشابه دقيقة. على عكس مكتبات المتجهات ، تم تصميم قواعد بيانات المتجهات لتناسب حالة الاستخدام الخاصة بنا ، مما يجعلها مثالية للتطبيقات التي يكون فيها الأداء وقابلية التوسع أمرًا بالغ الأهمية. مع ظهور التعلم الآلي والذكاء الاصطناعي ، أصبحت قواعد بيانات المتجهات ذات أهمية متزايدة لمجموعة واسعة من التطبيقات بما في ذلك أنظمة التوصية ، والبحث عن الصور ، والتشابه الدلالي والقائمة تطول. مع استمرار تطور المجال ، يمكننا أن نتوقع رؤية المزيد من التطبيقات المبتكرة لقواعد بيانات المتجهات في المستقبل.

Ercole Palmeri