مقالات

پایگاه های داده برداری چیست، چگونه کار می کنند و بازار بالقوه

پایگاه داده برداری نوعی پایگاه داده است که داده ها را به صورت بردارهایی با ابعاد بالا ذخیره می کند که نمایش ریاضی ویژگی ها یا ویژگی ها هستند.

این بردارها معمولاً با اعمال نوعی تابع جاسازی در داده های خام مانند متن، تصاویر، صدا، ویدئو و غیره ایجاد می شوند.

پایگاه داده های برداری می تواند باشد definite به‌عنوان ابزاری که با ویژگی‌هایی مانند فیلتر ابرداده و مقیاس‌بندی افقی، جاسازی‌های برداری را برای بازیابی سریع و جستجوی مشابه فهرست‌بندی و ذخیره می‌کند.

فهرست مطالب

زمان تخمینی مطالعه: 9 minuti

افزایش علاقه سرمایه گذاران

در هفته های اخیر، علاقه سرمایه گذاران به پایگاه های داده برداری افزایش یافته است. از ابتدای سال 2023 ما متوجه شده ایم که:

راه اندازی پایگاه داده برداری سنگین کردن او بدست آورد 50 میلیون دلار بودجه سری B;
پینکون 100 میلیون دلار سرمایه سری B را با ارزش 750 میلیون دلار جمع آوری کرد.
رنگی یک پروژه منبع باز، 18 میلیون دلار برای پایگاه داده جاسازی خود جمع آوری کرد.

بیایید با جزئیات بیشتر ببینیم پایگاه داده های برداری چیست.

بردارها به عنوان نمایش داده

پایگاه های داده برداری به شدت بر تعبیه برداری تکیه می کنند، نوعی نمایش داده که اطلاعات معنایی حیاتی برای هوش مصنوعی را برای به دست آوردن درک و حفظ حافظه بلندمدت در هنگام اجرای فعالیت های پیچیده در خود حمل می کند.

جاسازی های برداری

جاسازی های برداری مانند یک نقشه هستند، اما به جای اینکه به ما نشان دهند اشیاء در کجای جهان قرار دارند، به ما نشان می دهند که اشیا در جایی به نام قرار دارند. فضای برداری فضای برداری نوعی زمین بازی بزرگ است که در آن همه چیز جای خود را برای بازی دارد. تصور کنید که گروهی از حیوانات دارید: یک گربه، یک سگ، یک پرنده و یک ماهی. ما می توانیم برای هر تصویر یک جاسازی برداری ایجاد کنیم و به آن موقعیت خاصی در زمین بازی بدهیم. ممکن است گربه در یک گوشه باشد، سگ در طرف دیگر. پرنده می تواند در آسمان باشد و ماهی می تواند در برکه باشد. این مکان یک فضای چند بعدی است. هر بعد مربوط به جنبه های مختلف آنها است، به عنوان مثال، ماهی ها باله دارند، پرندگان بال دارند، گربه ها و سگ ها پا دارند. یکی دیگر از جنبه های آنها ممکن است این باشد که ماهی ها به آب، پرندگان عمدتاً به آسمان و گربه ها و سگ ها به زمین تعلق دارند. وقتی این بردارها را داشتیم، می توانیم از تکنیک های ریاضی برای گروه بندی آنها بر اساس شباهتشان استفاده کنیم. بر اساس اطلاعاتی که در اختیار داریم،

بنابراین، جاسازی‌های برداری مانند نقشه‌ای هستند که به ما کمک می‌کنند تا شباهت بین چیزها را در فضای برداری پیدا کنیم. همانطور که یک نقشه به ما کمک می کند تا در جهان حرکت کنیم، جاسازی های برداری به حرکت در زمین بازی برداری کمک می کند.

ایده کلیدی این است که جاسازی هایی که از نظر معنایی مشابه یکدیگر هستند، فاصله کمتری بین آنها دارند. برای اینکه بفهمیم چقدر شبیه هم هستند، می توانیم از توابع فاصله برداری مانند فاصله اقلیدسی، فاصله کسینوس و غیره استفاده کنیم.

پایگاه داده های برداری در مقابل کتابخانه های برداری

کتابخانه های برداری جاسازی های بردارها را در نمایه ها در حافظه ذخیره کنید تا جستجوهای مشابه انجام شود. کتابخانه های برداری دارای ویژگی ها/محدودیت های زیر هستند:

فقط وکتورهای فروشگاهی : کتابخانه های برداری فقط جاسازی های بردارها را ذخیره می کنند و نه اشیاء مرتبطی را که از آنها تولید شده اند. این بدان معنی است که وقتی ما پرس و جو می کنیم، یک کتابخانه برداری با بردارها و شناسه های شی مربوطه پاسخ می دهد. این محدود کننده است زیرا اطلاعات واقعی در شی ذخیره می شود و نه شناسه. برای حل این مشکل، باید اشیاء را در ذخیره سازی ثانویه ذخیره کنیم. سپس می‌توانیم از شناسه‌های بازگردانده شده توسط کوئری استفاده کنیم و آنها را با اشیاء مطابقت دهیم تا نتایج را بفهمیم.
داده های شاخص تغییر ناپذیر است : نمایه های تولید شده توسط کتابخانه های برداری تغییر ناپذیر هستند. این بدان معناست که وقتی داده‌های خود را وارد کردیم و فهرست را ساختیم، نمی‌توانیم هیچ تغییری ایجاد کنیم (بدون درج، حذف یا تغییر جدید). برای ایجاد تغییرات در فهرست خود، باید آن را از ابتدا بازسازی کنیم
ضمن محدود کردن واردات، پرس و جو کنید : اکثر کتابخانه های برداری را نمی توان هنگام وارد کردن داده ها پرس و جو کرد. ابتدا باید تمام داده های خود را وارد کنیم. بنابراین ایندکس پس از وارد شدن اشیا ایجاد می شود. این می‌تواند برای برنامه‌هایی که نیاز به میلیون‌ها یا حتی میلیاردها شیء دارند، مشکل ساز باشد.

کتابخانه های جستجوی برداری زیادی موجود است: FAISS از فیس بوک، آزار توسط Spotify و اسکن NN توسط گوگل FAISS از روش خوشه بندی، Annoy از درختان و ScanNN از فشرده سازی برداری استفاده می کند. برای هر کدام یک مبادله عملکرد وجود دارد که می‌توانیم آن را بر اساس معیارهای کاربردی و عملکرد خود انتخاب کنیم.

CRUD

ویژگی اصلی که پایگاه داده های برداری را از کتابخانه های برداری متمایز می کند، امکان بایگانی، به روز رسانی و حذف داده ها است. پایگاه داده های برداری دارای پشتیبانی CRUD هستند کامل (ایجاد، خواندن، به روز رسانی و حذف) که محدودیت های یک کتابخانه برداری را حل می کند.

بردارها و اشیاء را بایگانی کنید : پایگاه های داده می توانند هم اشیاء داده و هم بردارها را ذخیره کنند. از آنجایی که هر دو ذخیره می شوند، می توانیم جستجوی برداری را با فیلترهای ساخت یافته ترکیب کنیم. فیلترها به ما امکان می دهند مطمئن شویم که نزدیکترین همسایگان با فیلتر ابرداده مطابقت دارند.
تغییرپذیری : به عنوان پایگاه داده برداری به طور کامل پشتیبانی می کند چیز چندش و کثیف، ما به راحتی می توانیم پس از ایجاد ایندکس، ورودی هایی را در فهرست خود اضافه، حذف یا به روز کنیم. این به ویژه هنگام کار با داده های دائماً در حال تغییر مفید است.
جستجوی بلادرنگ : برخلاف کتابخانه‌های برداری، پایگاه‌های داده به ما اجازه می‌دهند تا داده‌های خود را در طول فرآیند واردات پرس و جو کرده و اصلاح کنیم. همانطور که میلیون‌ها شیء را بارگیری می‌کنیم، داده‌های وارد شده کاملاً در دسترس و عملیاتی باقی می‌مانند، بنابراین لازم نیست برای شروع کار روی آنچه قبلاً وجود دارد منتظر تکمیل واردات باشید.

به طور خلاصه، یک پایگاه داده برداری با پرداختن به محدودیت‌های شاخص‌های بردار خودکفا همانطور که در نکات قبلی مورد بحث قرار گرفت، راه‌حلی برتر برای مدیریت جاسازی‌های برداری ارائه می‌کند.

اما چه چیزی پایگاه داده های برداری را نسبت به پایگاه داده های سنتی برتری می دهد؟

پایگاه داده های برداری در مقابل پایگاه های داده سنتی

پایگاه های داده سنتی برای ذخیره و بازیابی داده های ساختاریافته با استفاده از مدل های رابطه ای طراحی شده اند، به این معنی که آنها برای پرس و جوها بر اساس ستون ها و ردیف های داده ها بهینه شده اند. در حالی که امکان ذخیره جاسازی های برداری در پایگاه های داده سنتی وجود دارد، این پایگاه های داده برای عملیات برداری بهینه سازی نشده اند و نمی توانند جستجوهای مشابه یا سایر عملیات پیچیده را روی مجموعه داده های بزرگ به طور موثر انجام دهند.

این به این دلیل است که پایگاه های داده سنتی از تکنیک های نمایه سازی بر اساس انواع داده های ساده مانند رشته ها یا اعداد استفاده می کنند. این تکنیک‌های نمایه‌سازی برای داده‌های برداری که ابعاد بالایی دارند و به تکنیک‌های نمایه‌سازی تخصصی مانند شاخص‌های معکوس یا درخت‌های فضایی نیاز دارند، مناسب نیستند.

همچنین، پایگاه های داده سنتی برای رسیدگی به مقادیر زیادی از داده های بدون ساختار یا نیمه ساختار یافته که اغلب با جاسازی های برداری مرتبط هستند طراحی نشده اند. به عنوان مثال، یک تصویر یا فایل صوتی می‌تواند حاوی میلیون‌ها نقطه داده باشد که پایگاه‌های داده سنتی نمی‌توانند به طور موثر از آن‌ها استفاده کنند.

از سوی دیگر، پایگاه های داده برداری به طور خاص برای ذخیره و بازیابی داده های برداری طراحی شده اند و برای جستجوهای مشابه و سایر عملیات پیچیده در مجموعه داده های بزرگ بهینه شده اند. آن‌ها از تکنیک‌ها و الگوریتم‌های نمایه‌سازی تخصصی استفاده می‌کنند که برای کار با داده‌های با ابعاد بالا طراحی شده‌اند و آنها را بسیار کارآمدتر از پایگاه‌های داده سنتی برای ذخیره و بازیابی جاسازی‌های برداری می‌کند.

اکنون که مطالب زیادی در مورد پایگاه داده های برداری خوانده اید، ممکن است از خود بپرسید که چگونه کار می کنند؟ بیا یک نگاهی بیندازیم.

پایگاه داده برداری چگونه کار می کند؟

همه ما می دانیم که پایگاه داده های رابطه ای چگونه کار می کنند: آنها رشته ها، اعداد و انواع دیگر داده های اسکالر را در ردیف ها و ستون ها ذخیره می کنند. از سوی دیگر، یک پایگاه داده برداری بر روی بردارها عمل می کند، بنابراین نحوه بهینه سازی و پرس و جو آن کاملاً متفاوت است.

در پایگاه‌های داده سنتی، ما معمولاً ردیف‌هایی را در پایگاه داده جستجو می‌کنیم که مقدار معمولاً دقیقاً با پرس و جو ما مطابقت دارد. در پایگاه‌های داده برداری، ما یک متریک شباهت را برای یافتن برداری اعمال می‌کنیم که بیشترین شباهت را به پرس و جوی ما دارد.

یک پایگاه داده برداری از ترکیبی از چندین الگوریتم استفاده می کند که همگی در جستجوی نزدیکترین همسایه (ANN) شرکت می کنند. این الگوریتم ها جستجو را با هش کردن، کوانتیزه کردن یا جستجوی مبتنی بر نمودار بهینه می کنند.

این الگوریتم‌ها در یک خط لوله جمع‌آوری می‌شوند که بازیابی سریع و دقیق همسایه‌های بردار مورد نظر را فراهم می‌کند. از آنجایی که پایگاه داده برداری نتایج تقریبی را ارائه می دهد، معاوضه اصلی ما بین دقت و سرعت است. هرچه نتیجه دقیق تر باشد، پرس و جو کندتر خواهد بود. با این حال، یک سیستم خوب می‌تواند جستجوی فوق‌العاده سریع با دقت تقریباً عالی را ارائه دهد.

نمایه سازی : پایگاه داده برداری، بردارها را با استفاده از الگوریتمی مانند PQ، LSH یا HNSW نمایه می کند. این مرحله بردارها را با یک ساختار داده مرتبط می کند که امکان جستجوی سریعتر را فراهم می کند.
پرس و جو : پایگاه داده برداری، بردار پرس و جو نمایه شده را با بردارهای نمایه شده در مجموعه داده مقایسه می کند تا نزدیکترین همسایگان را بیابد (با استفاده از یک متریک شباهت استفاده شده توسط آن شاخص)
پس پردازش : در برخی موارد، پایگاه داده برداری نزدیکترین همسایگان نهایی را از مجموعه داده واکشی می کند و آنها را پس پردازش می کند تا نتایج نهایی را برگرداند. این مرحله ممکن است شامل طبقه بندی مجدد نزدیکترین همسایگان با استفاده از معیار مشابهت متفاوت باشد.

مزایای

پایگاه داده های برداری ابزار قدرتمندی برای جستجوی شباهت و سایر عملیات پیچیده در مجموعه داده های بزرگ هستند که نمی توانند به طور موثر با استفاده از پایگاه های داده سنتی انجام شوند. برای ایجاد یک پایگاه داده برداری عملکردی، جاسازی ها ضروری است، زیرا آنها معنای معنایی داده ها را دریافت می کنند و جستجوهای دقیق تشابه را امکان پذیر می کنند. برخلاف کتابخانه‌های برداری، پایگاه‌های داده برداری به گونه‌ای طراحی شده‌اند که مورد استفاده ما قرار بگیرند، و آنها را برای برنامه‌هایی که عملکرد و مقیاس‌پذیری در آنها حیاتی است، ایده‌آل می‌سازد. با ظهور یادگیری ماشین و هوش مصنوعی، پایگاه‌های داده برداری برای طیف گسترده‌ای از برنامه‌ها از جمله سیستم‌های توصیه‌گر، جستجوی تصویر، شباهت معنایی و این فهرست به طور فزاینده‌ای اهمیت پیدا می‌کنند. همانطور که این زمینه به تکامل خود ادامه می دهد، می توانیم انتظار داشته باشیم که در آینده شاهد کاربردهای نوآورانه تری از پایگاه های داده برداری باشیم.

Ercole Palmeri