زمان تخمینی مطالعه: 9 minuti
در هفته های اخیر، علاقه سرمایه گذاران به پایگاه های داده برداری افزایش یافته است. از ابتدای سال 2023 ما متوجه شده ایم که:
بیایید با جزئیات بیشتر ببینیم پایگاه داده های برداری چیست.
پایگاه های داده برداری به شدت بر تعبیه برداری تکیه می کنند، نوعی نمایش داده که اطلاعات معنایی حیاتی برای هوش مصنوعی را برای به دست آوردن درک و حفظ حافظه بلندمدت در هنگام اجرای فعالیت های پیچیده در خود حمل می کند.
جاسازی های برداری مانند یک نقشه هستند، اما به جای اینکه به ما نشان دهند اشیاء در کجای جهان قرار دارند، به ما نشان می دهند که اشیا در جایی به نام قرار دارند. فضای برداری فضای برداری نوعی زمین بازی بزرگ است که در آن همه چیز جای خود را برای بازی دارد. تصور کنید که گروهی از حیوانات دارید: یک گربه، یک سگ، یک پرنده و یک ماهی. ما می توانیم برای هر تصویر یک جاسازی برداری ایجاد کنیم و به آن موقعیت خاصی در زمین بازی بدهیم. ممکن است گربه در یک گوشه باشد، سگ در طرف دیگر. پرنده می تواند در آسمان باشد و ماهی می تواند در برکه باشد. این مکان یک فضای چند بعدی است. هر بعد مربوط به جنبه های مختلف آنها است، به عنوان مثال، ماهی ها باله دارند، پرندگان بال دارند، گربه ها و سگ ها پا دارند. یکی دیگر از جنبه های آنها ممکن است این باشد که ماهی ها به آب، پرندگان عمدتاً به آسمان و گربه ها و سگ ها به زمین تعلق دارند. وقتی این بردارها را داشتیم، می توانیم از تکنیک های ریاضی برای گروه بندی آنها بر اساس شباهتشان استفاده کنیم. بر اساس اطلاعاتی که در اختیار داریم،
بنابراین، جاسازیهای برداری مانند نقشهای هستند که به ما کمک میکنند تا شباهت بین چیزها را در فضای برداری پیدا کنیم. همانطور که یک نقشه به ما کمک می کند تا در جهان حرکت کنیم، جاسازی های برداری به حرکت در زمین بازی برداری کمک می کند.
ایده کلیدی این است که جاسازی هایی که از نظر معنایی مشابه یکدیگر هستند، فاصله کمتری بین آنها دارند. برای اینکه بفهمیم چقدر شبیه هم هستند، می توانیم از توابع فاصله برداری مانند فاصله اقلیدسی، فاصله کسینوس و غیره استفاده کنیم.
کتابخانه های برداری جاسازی های بردارها را در نمایه ها در حافظه ذخیره کنید تا جستجوهای مشابه انجام شود. کتابخانه های برداری دارای ویژگی ها/محدودیت های زیر هستند:
کتابخانه های جستجوی برداری زیادی موجود است: FAISS از فیس بوک، آزار توسط Spotify و اسکن NN توسط گوگل FAISS از روش خوشه بندی، Annoy از درختان و ScanNN از فشرده سازی برداری استفاده می کند. برای هر کدام یک مبادله عملکرد وجود دارد که میتوانیم آن را بر اساس معیارهای کاربردی و عملکرد خود انتخاب کنیم.
ویژگی اصلی که پایگاه داده های برداری را از کتابخانه های برداری متمایز می کند، امکان بایگانی، به روز رسانی و حذف داده ها است. پایگاه داده های برداری دارای پشتیبانی CRUD هستند کامل (ایجاد، خواندن، به روز رسانی و حذف) که محدودیت های یک کتابخانه برداری را حل می کند.
به طور خلاصه، یک پایگاه داده برداری با پرداختن به محدودیتهای شاخصهای بردار خودکفا همانطور که در نکات قبلی مورد بحث قرار گرفت، راهحلی برتر برای مدیریت جاسازیهای برداری ارائه میکند.
اما چه چیزی پایگاه داده های برداری را نسبت به پایگاه داده های سنتی برتری می دهد؟
پایگاه های داده سنتی برای ذخیره و بازیابی داده های ساختاریافته با استفاده از مدل های رابطه ای طراحی شده اند، به این معنی که آنها برای پرس و جوها بر اساس ستون ها و ردیف های داده ها بهینه شده اند. در حالی که امکان ذخیره جاسازی های برداری در پایگاه های داده سنتی وجود دارد، این پایگاه های داده برای عملیات برداری بهینه سازی نشده اند و نمی توانند جستجوهای مشابه یا سایر عملیات پیچیده را روی مجموعه داده های بزرگ به طور موثر انجام دهند.
این به این دلیل است که پایگاه های داده سنتی از تکنیک های نمایه سازی بر اساس انواع داده های ساده مانند رشته ها یا اعداد استفاده می کنند. این تکنیکهای نمایهسازی برای دادههای برداری که ابعاد بالایی دارند و به تکنیکهای نمایهسازی تخصصی مانند شاخصهای معکوس یا درختهای فضایی نیاز دارند، مناسب نیستند.
همچنین، پایگاه های داده سنتی برای رسیدگی به مقادیر زیادی از داده های بدون ساختار یا نیمه ساختار یافته که اغلب با جاسازی های برداری مرتبط هستند طراحی نشده اند. به عنوان مثال، یک تصویر یا فایل صوتی میتواند حاوی میلیونها نقطه داده باشد که پایگاههای داده سنتی نمیتوانند به طور موثر از آنها استفاده کنند.
از سوی دیگر، پایگاه های داده برداری به طور خاص برای ذخیره و بازیابی داده های برداری طراحی شده اند و برای جستجوهای مشابه و سایر عملیات پیچیده در مجموعه داده های بزرگ بهینه شده اند. آنها از تکنیکها و الگوریتمهای نمایهسازی تخصصی استفاده میکنند که برای کار با دادههای با ابعاد بالا طراحی شدهاند و آنها را بسیار کارآمدتر از پایگاههای داده سنتی برای ذخیره و بازیابی جاسازیهای برداری میکند.
اکنون که مطالب زیادی در مورد پایگاه داده های برداری خوانده اید، ممکن است از خود بپرسید که چگونه کار می کنند؟ بیا یک نگاهی بیندازیم.
همه ما می دانیم که پایگاه داده های رابطه ای چگونه کار می کنند: آنها رشته ها، اعداد و انواع دیگر داده های اسکالر را در ردیف ها و ستون ها ذخیره می کنند. از سوی دیگر، یک پایگاه داده برداری بر روی بردارها عمل می کند، بنابراین نحوه بهینه سازی و پرس و جو آن کاملاً متفاوت است.
در پایگاههای داده سنتی، ما معمولاً ردیفهایی را در پایگاه داده جستجو میکنیم که مقدار معمولاً دقیقاً با پرس و جو ما مطابقت دارد. در پایگاههای داده برداری، ما یک متریک شباهت را برای یافتن برداری اعمال میکنیم که بیشترین شباهت را به پرس و جوی ما دارد.
یک پایگاه داده برداری از ترکیبی از چندین الگوریتم استفاده می کند که همگی در جستجوی نزدیکترین همسایه (ANN) شرکت می کنند. این الگوریتم ها جستجو را با هش کردن، کوانتیزه کردن یا جستجوی مبتنی بر نمودار بهینه می کنند.
این الگوریتمها در یک خط لوله جمعآوری میشوند که بازیابی سریع و دقیق همسایههای بردار مورد نظر را فراهم میکند. از آنجایی که پایگاه داده برداری نتایج تقریبی را ارائه می دهد، معاوضه اصلی ما بین دقت و سرعت است. هرچه نتیجه دقیق تر باشد، پرس و جو کندتر خواهد بود. با این حال، یک سیستم خوب میتواند جستجوی فوقالعاده سریع با دقت تقریباً عالی را ارائه دهد.
پایگاه داده های برداری ابزار قدرتمندی برای جستجوی شباهت و سایر عملیات پیچیده در مجموعه داده های بزرگ هستند که نمی توانند به طور موثر با استفاده از پایگاه های داده سنتی انجام شوند. برای ایجاد یک پایگاه داده برداری عملکردی، جاسازی ها ضروری است، زیرا آنها معنای معنایی داده ها را دریافت می کنند و جستجوهای دقیق تشابه را امکان پذیر می کنند. برخلاف کتابخانههای برداری، پایگاههای داده برداری به گونهای طراحی شدهاند که مورد استفاده ما قرار بگیرند، و آنها را برای برنامههایی که عملکرد و مقیاسپذیری در آنها حیاتی است، ایدهآل میسازد. با ظهور یادگیری ماشین و هوش مصنوعی، پایگاههای داده برداری برای طیف گستردهای از برنامهها از جمله سیستمهای توصیهگر، جستجوی تصویر، شباهت معنایی و این فهرست به طور فزایندهای اهمیت پیدا میکنند. همانطور که این زمینه به تکامل خود ادامه می دهد، می توانیم انتظار داشته باشیم که در آینده شاهد کاربردهای نوآورانه تری از پایگاه های داده برداری باشیم.
Ercole Palmeri
بخش دریایی یک قدرت واقعی اقتصادی جهانی است که به سمت یک بازار 150 میلیاردی حرکت کرده است.
دوشنبه گذشته، فایننشال تایمز از قراردادی با OpenAI خبر داد. FT مجوز روزنامه نگاری در سطح جهانی خود را صادر می کند…
میلیونها نفر برای خدمات استریم پرداخت میکنند و هزینه اشتراک ماهانه میپردازند. این عقیده رایج است که شما…
Coveware توسط Veeam به ارائه خدمات پاسخگویی به حوادث اخاذی سایبری ادامه خواهد داد. Coveware قابلیتهای پزشکی قانونی و اصلاحی را ارائه میدهد…