وقت القراءة المقدر: 9 دقيقة
في الأسابيع الأخيرة ، كان هناك زيادة في اهتمام المستثمرين بقواعد بيانات المتجهات. منذ بداية عام 2023 لاحظنا ما يلي:
دعونا نرى بمزيد من التفصيل ما هي قواعد بيانات المتجهات.
تعتمد قواعد بيانات المتجه بشكل كبير على تضمين المتجهات ، وهو نوع من تمثيل البيانات يحمل في داخله المعلومات الدلالية الحاسمة للذكاء الاصطناعي لاكتساب الفهم والحفاظ على الذاكرة طويلة المدى للاستفادة منها عند تنفيذ الأنشطة المعقدة.
إن تضمين المتجهات يشبه الخريطة ، ولكن بدلاً من إظهار مكان الأشياء في العالم ، فإنها توضح لنا مكان وجود الأشياء في شيء يسمى ناقلات الفضاء. مساحة المتجهات هي نوع من ملعب كبير حيث كل شيء له مكانه للعب. تخيل أن لديك مجموعة من الحيوانات: قطة وكلب وطائر وسمكة. يمكننا إنشاء متجه مضمن لكل صورة من خلال إعطائها موقعًا خاصًا في الملعب. قد تكون القطة في زاوية والكلب على الجانب الآخر. يمكن أن يكون الطائر في السماء والأسماك يمكن أن تكون في البركة. هذا المكان فضاء متعدد الأبعاد. يتوافق كل بُعد مع جوانب مختلفة منها ، على سبيل المثال ، الأسماك لها زعانف ، والطيور لها أجنحة ، والقطط والكلاب لها أرجل. قد يكون جانب آخر منها أن الأسماك تنتمي إلى الماء ، والطيور أساسًا إلى السماء ، والقطط والكلاب على الأرض. بمجرد أن نحصل على هذه المتجهات ، يمكننا استخدام الأساليب الرياضية لتجميعها بناءً على تشابهها. بناءً على المعلومات التي نحتفظ بها ،
لذا ، فإن عمليات تضمين المتجهات تشبه الخريطة التي تساعدنا في إيجاد التشابه بين الأشياء في الفضاء المتجه. مثلما تساعدنا الخريطة في التنقل في العالم ، تساعد تضمين المتجهات في التنقل في ملعب المتجه.
الفكرة الأساسية هي أن التضمينات المتشابهة لغويًا مع بعضها البعض لها مسافة أصغر بينها. لمعرفة مدى تشابههما ، يمكننا استخدام دوال المسافة المتجهة مثل المسافة الإقليدية ، ومسافة جيب التمام ، وما إلى ذلك.
مكتبات المتجهات تخزين حفلات الزفاف للناقلات في الفهارس في الذاكرة ، من أجل إجراء عمليات بحث عن التشابه. مكتبات المتجهات لها الخصائص / القيود التالية:
هناك العديد من مكتبات البحث المتجهية المتاحة: FAISS of Facebook، إزعاج بواسطة Spotify و ScanNN من جوجل. يستخدم FAISS طريقة التجميع ، ويستخدم Annoy الأشجار ويستخدم ScanNN ضغط المتجهات. هناك مقايضة أداء لكل منها ، والتي يمكننا اختيارها بناءً على مقاييس التطبيق والأداء لدينا.
الميزة الرئيسية التي تميز قواعد بيانات المتجه عن مكتبات المتجهات هي القدرة على أرشفة البيانات وتحديثها وحذفها. قواعد بيانات المتجهات لديها دعم CRUD إكمال (إنشاء وقراءة وتحديث وحذف) يحل قيود مكتبة المتجهات.
باختصار ، توفر قاعدة بيانات المتجهات حلاً فائقًا لمعالجة تضمين المتجهات من خلال معالجة قيود مؤشرات المتجهات المستقلة كما تمت مناقشتها في النقاط السابقة.
ولكن ما الذي يجعل قواعد بيانات المتجهات متفوقة على قواعد البيانات التقليدية؟
تم تصميم قواعد البيانات التقليدية لتخزين واسترداد البيانات المنظمة باستخدام النماذج العلائقية ، مما يعني أنها مُحسّنة للاستعلامات القائمة على أعمدة وصفوف البيانات. في حين أنه من الممكن تخزين عمليات تضمين المتجهات في قواعد البيانات التقليدية ، فإن قواعد البيانات هذه ليست محسّنة لعمليات المتجهات ولا يمكنها إجراء عمليات بحث عن التشابه أو عمليات معقدة أخرى على مجموعات البيانات الكبيرة بكفاءة.
وذلك لأن قواعد البيانات التقليدية تستخدم تقنيات الفهرسة بناءً على أنواع البيانات البسيطة ، مثل السلاسل أو الأرقام. تقنيات الفهرسة هذه ليست مناسبة لبيانات المتجه ، التي لها أبعاد عالية وتتطلب تقنيات فهرسة متخصصة مثل الفهارس المقلوبة أو الأشجار المكانية.
أيضًا ، لم يتم تصميم قواعد البيانات التقليدية للتعامل مع كميات كبيرة من البيانات غير المهيكلة أو شبه المهيكلة المرتبطة غالبًا بتضمينات المتجهات. على سبيل المثال ، يمكن أن يحتوي ملف صورة أو ملف صوتي على ملايين نقاط البيانات ، والتي لا تستطيع قواعد البيانات التقليدية معالجتها بكفاءة.
من ناحية أخرى ، تم تصميم قواعد بيانات المتجهات خصيصًا لتخزين واسترداد بيانات المتجه وتم تحسينها لعمليات البحث عن التشابه والعمليات المعقدة الأخرى على مجموعات البيانات الكبيرة. يستخدمون تقنيات وخوارزميات فهرسة متخصصة مصممة للعمل مع البيانات عالية الأبعاد ، مما يجعلها أكثر كفاءة من قواعد البيانات التقليدية لتخزين واسترجاع تضمين المتجهات.
الآن بعد أن قرأت الكثير عن قواعد بيانات المتجهات ، قد تتساءل ، كيف تعمل؟ لنلقي نظرة.
نعلم جميعًا كيفية عمل قواعد البيانات العلائقية: فهي تخزن سلاسل وأرقام وأنواع أخرى من البيانات العددية في صفوف وأعمدة. من ناحية أخرى ، تعمل قاعدة بيانات المتجهات على المتجهات ، لذا فإن طريقة تحسينها والاستعلام عنها مختلفة تمامًا.
في قواعد البيانات التقليدية ، نقوم عادةً بالاستعلام عن الصفوف في قاعدة البيانات حيث تتطابق القيمة عادةً مع استعلامنا تمامًا. في قواعد بيانات المتجه ، نطبق مقياس تشابه للعثور على متجه يشبه إلى حد كبير استعلامنا.
تستخدم قاعدة بيانات المتجه مجموعة من الخوارزميات المتعددة التي تشارك جميعها في البحث المجاور الأقرب (ANN). تعمل هذه الخوارزميات على تحسين البحث عن طريق التجزئة أو التكميم أو البحث المستند إلى الرسم البياني.
يتم تجميع هذه الخوارزميات في خط أنابيب يوفر استردادًا سريعًا ودقيقًا لجيران المتجه الذي تم الاستعلام عنه. نظرًا لأن قاعدة بيانات المتجه توفر نتائج تقريبية ، فإن المقايضات الرئيسية التي نأخذها في الاعتبار هي بين الدقة والسرعة. كلما كانت النتيجة أكثر دقة ، كان الاستعلام أبطأ. ومع ذلك ، يمكن أن يوفر النظام الجيد بحثًا فائق السرعة بدقة شبه مثالية.
تعد قواعد بيانات المتجهات أداة قوية لعمليات البحث عن التشابه والعمليات المعقدة الأخرى على مجموعات البيانات الكبيرة ، والتي لا يمكن إجراؤها بفعالية باستخدام قواعد البيانات التقليدية. لبناء قاعدة بيانات متجهية وظيفية ، تعتبر التضمينات ضرورية ، لأنها تلتقط المعنى الدلالي للبيانات وتمكن عمليات بحث تشابه دقيقة. على عكس مكتبات المتجهات ، تم تصميم قواعد بيانات المتجهات لتناسب حالة الاستخدام الخاصة بنا ، مما يجعلها مثالية للتطبيقات التي يكون فيها الأداء وقابلية التوسع أمرًا بالغ الأهمية. مع ظهور التعلم الآلي والذكاء الاصطناعي ، أصبحت قواعد بيانات المتجهات ذات أهمية متزايدة لمجموعة واسعة من التطبيقات بما في ذلك أنظمة التوصية ، والبحث عن الصور ، والتشابه الدلالي والقائمة تطول. مع استمرار تطور المجال ، يمكننا أن نتوقع رؤية المزيد من التطبيقات المبتكرة لقواعد بيانات المتجهات في المستقبل.
Ercole Palmeri
أعلنت صحيفة فاينانشيال تايمز يوم الاثنين الماضي عن صفقة مع OpenAI. "فاينانشيال تايمز" ترخص صحافتها ذات المستوى العالمي...
يدفع الملايين من الأشخاص مقابل خدمات البث، ويدفعون رسوم الاشتراك الشهرية. من الشائع أنك…
سوف تستمر شركة Coveware by Veeam في تقديم خدمات الاستجابة لحوادث الابتزاز السيبراني. ستوفر Coveware إمكانات الطب الشرعي والمعالجة...
تُحدث الصيانة التنبؤية ثورة في قطاع النفط والغاز، من خلال اتباع نهج مبتكر واستباقي لإدارة المحطات.