Артиколи

Векторлық деректер базасы дегеніміз не, олар қалай жұмыс істейді және әлеуетті нарық

Векторлық деректер базасы - бұл мүмкіндіктердің немесе атрибуттардың математикалық көрінісі болып табылатын жоғары өлшемді векторлар ретінде деректерді сақтайтын деректер қорының түрі. 

Бұл векторлар әдетте мәтін, суреттер, аудио, бейне және т.б. сияқты өңделмеген деректерге қандай да бір ендіру функциясын қолдану арқылы жасалады.

Векторлық мәліметтер базасы болуы мүмкін definite метадеректерді сүзу және көлденең масштабтау сияқты мүмкіндіктері бар жылдам іздеу және ұқсастықты іздеу үшін векторлық ендірулерді индекстейтін және сақтайтын құрал ретінде.

Болжалды оқу уақыты: 9 минуты

Инвесторлардың қызығушылығының артуы

Соңғы апталарда векторлық деректер базасына инвесторлардың қызығушылығы артты. 2023 жылдың басынан бастап біз мынаны байқадық:

Векторлық деректер қорының не екенін толығырақ қарастырайық.

Векторлар мәліметтерді көрсету ретінде

Векторлық дерекқорлар күрделі әрекеттерді орындау кезінде түсіну және ұзақ мерзімді жадты сақтау үшін AI үшін маңызды семантикалық ақпаратты қамтитын деректерді ұсыну түрі болып табылатын векторлық ендіруге көп сүйенеді. 

Векторлық ендірулер

Векторлық ендірулер картаға ұқсайды, бірақ дүниедегі заттардың қай жерде екенін көрсетудің орнына, олар бізге заттардың қай жерде екенін көрсетеді. векторлық кеңістік. Векторлық кеңістік - бұл үлкен ойын алаңы, онда әр нәрсенің өз орны бар. Сізде жануарлар тобы бар деп елестетіп көріңіз: мысық, ит, құс және балық. Әрбір суретке ойын алаңында ерекше позиция беру арқылы векторлық ендіруді жасай аламыз. Мысық бір бұрышта, ит екінші жағында болуы мүмкін. Құс аспанда, балық тоғанда болуы мүмкін. Бұл жер көп өлшемді кеңістік. Әрбір өлшем олардың әртүрлі аспектілеріне сәйкес келеді, мысалы, балықтардың қанаттары, құстардың қанаттары, мысықтар мен иттердің аяқтары бар. Олардың тағы бір қыры балық суға, құстар негізінен аспанға, мысық пен ит жерге жатады. Осы векторларға ие болғаннан кейін, біз оларды ұқсастығына қарай топтастыру үшін математикалық әдістерді пайдалана аламыз. Қолымызда бар мәліметтерге сүйене отырып,

Сонымен, векторлық ендірулер векторлық кеңістіктегі заттардың арасындағы ұқсастықты табуға көмектесетін карта сияқты. Карта әлемді шарлауға көмектесетіні сияқты, векторлық ендірулер векторлық ойын алаңында шарлауға көмектеседі.

Негізгі идея мынада: бір-біріне мағыналық жағынан ұқсас ендірілгендер олардың арасындағы қашықтық азырақ болады. Олардың қаншалықты ұқсас екенін білу үшін евклидтік қашықтық, косинустық қашықтық және т.б. сияқты векторлық қашықтық функцияларын қолдануға болады.

Векторлық деректер базасы векторлық кітапханаларға қарсы

Векторлық кітапханалар ұқсастықты іздеуді орындау үшін жадтағы индекстерге векторлардың ендірілуін сақтау. Векторлық кітапханалардың келесі сипаттамалары/шектеулері бар:

  1. Тек векторларды сақтаңыз : Векторлық кітапханалар векторлардың ендірілгендерін ғана сақтайды, олар жасалған байланыстырылған нысандарды емес. Бұл біз сұраған кезде векторлық кітапхана сәйкес векторлармен және нысан идентификаторларымен жауап беретінін білдіреді. Бұл шектеулі, себебі нақты ақпарат идентификаторда емес, нысанда сақталады. Бұл мәселені шешу үшін біз объектілерді екінші қоймада сақтауымыз керек. Содан кейін сұрау арқылы қайтарылған идентификаторларды пайдалана аламыз және нәтижелерді түсіну үшін оларды нысандарға сәйкестендіре аламыз.
  2. Индекс деректері өзгермейді : Векторлық кітапханалар шығаратын индекстер өзгермейді. Бұл деректерімізді импорттап, индексті құрастырғаннан кейін, біз ешқандай өзгертулер жасай алмайтынымызды білдіреді (жаңа кірістірулер, жоюлар немесе өзгертулер жоқ). Біздің индексімізге өзгертулер енгізу үшін оны нөлден қайта құруға тура келеді
  3. Импортты шектеу кезінде сұрау : Деректерді импорттау кезінде векторлық кітапханалардың көпшілігін сұрау мүмкін емес. Алдымен барлық деректер нысандарын импорттауымыз керек. Осылайша, индекс нысандар импортталғаннан кейін жасалады. Бұл миллиондаған немесе тіпті миллиардтаған нысандарды импорттауды талап ететін қолданбалар үшін мәселе болуы мүмкін.

Көптеген векторлық іздеу кітапханалары бар: Facebook-тің FAISS, ашулы Spotify және ScanNN Google арқылы. FAISS кластерлеу әдісін, Annoy ағаштарды, ал ScanNN векторлық қысуды пайдаланады. Қолданба және өнімділік көрсеткіштері негізінде таңдай алатын әрқайсысы үшін өнімділік барысы бар.

CRUD

Векторлық деректер қорын векторлық кітапханалардан ерекшелендіретін басты ерекшелігі деректерді мұрағаттау, жаңарту және жою мүмкіндігі болып табылады. Векторлық деректер базасында CRUD қолдауы бар векторлық кітапхананың шектеулерін шешетін толық (жасау, оқу, жаңарту және жою).

  1. Мұрағат векторлары мен объектілері : Деректер базалары деректер нысандарын да, векторларды да сақтай алады. Екеуі де сақталғандықтан, біз векторлық іздеуді құрылымдық сүзгілермен біріктіре аламыз. Сүзгілер ең жақын көршілер метадеректер сүзгісіне сәйкес келетініне көз жеткізуге мүмкіндік береді.
  2. Өзгергіштік : векторлық деректер базасы толығымен қолдау көрсетеді шикі, біз индексті жасағаннан кейін жазбаларды оңай қоса аламыз, жоя аламыз немесе жаңарта аламыз. Бұл үнемі өзгеріп отыратын деректермен жұмыс істегенде әсіресе пайдалы.
  3. Нақты уақыттағы іздеу : Векторлық кітапханалардан айырмашылығы, дерекқорлар импорттау процесі кезінде деректерімізді сұрауға және өзгертуге мүмкіндік береді. Миллиондаған нысандарды жүктеп жатқанда, импортталған деректер толығымен қолжетімді және жұмыс істейді, сондықтан қазірдің өзінде бар нәрселермен жұмыс істеуді бастау үшін импорттың аяқталуын күтудің қажеті жоқ.

Қысқаша айтқанда, векторлық деректер базасы алдыңғы тармақтарда талқыланған дербес векторлық индекстердің шектеулерін шешу арқылы векторлық ендірулерді өңдеуге арналған жоғары шешімді қамтамасыз етеді.

Бірақ векторлық дерекқорларды дәстүрлі дерекқорлардан артық ететін не?

Векторлық деректер базасы дәстүрлі дерекқорға қарсы

Дәстүрлі дерекқорлар реляциялық үлгілерді пайдалана отырып, құрылымдық деректерді сақтауға және алуға арналған, яғни олар деректердің бағандары мен жолдары негізіндегі сұраулар үшін оңтайландырылған. Дәстүрлі дерекқорларда векторлық ендірулерді сақтау мүмкін болғанымен, бұл дерекқорлар векторлық операциялар үшін оңтайландырылмаған және үлкен деректер жиындарында ұқсастықты іздеуді немесе басқа күрделі операцияларды тиімді орындай алмайды.

Себебі дәстүрлі дерекқорлар жолдар немесе сандар сияқты қарапайым деректер түрлеріне негізделген индекстеу әдістерін пайдаланады. Бұл индекстеу әдістері жоғары өлшемділігі бар және инверттелген индекстер немесе кеңістіктік ағаштар сияқты мамандандырылған индекстеу әдістерін қажет ететін векторлық деректер үшін жарамсыз.

Сондай-ақ, дәстүрлі дерекқорлар көбінесе векторлық ендірілгендермен байланыстырылған құрылымсыз немесе жартылай құрылымдық деректердің үлкен көлемін өңдеуге арналмаған. Мысалы, кескін немесе аудио файлда дәстүрлі дерекқорлар тиімді өңдей алмайтын миллиондаған деректер нүктелері болуы мүмкін.

Векторлық дерекқорлар, керісінше, векторлық деректерді сақтау және алу үшін арнайы әзірленген және ұқсастықты іздеу және үлкен деректер жиынындағы басқа күрделі операциялар үшін оңтайландырылған. Олар жоғары өлшемді деректермен жұмыс істеуге арналған арнайы индекстеу әдістері мен алгоритмдерін пайдаланады, бұл оларды векторлық ендірулерді сақтауға және алуға арналған дәстүрлі дерекқорларға қарағанда әлдеқайда тиімді етеді.

Енді сіз векторлық деректер базасы туралы көп оқыған болсаңыз, олар қалай жұмыс істейді деген сұрақ туындауы мүмкін. Қарап көрейік.

Векторлық мәліметтер базасы қалай жұмыс істейді?

Реляциялық деректер қоры қалай жұмыс істейтінін бәріміз білеміз: олар жолдар мен бағандарда жолдарды, сандарды және скаляр деректердің басқа түрлерін сақтайды. Екінші жағынан, векторлық деректер базасы векторларда жұмыс істейді, сондықтан оны оңтайландыру және сұрау тәсілі мүлдем басқаша.

Дәстүрлі дерекқорларда біз әдетте дерекқордағы мән әдетте сұрауымызға дәл сәйкес келетін жолдарды сұраймыз. Векторлық дерекқорларда сұрауымызға ең ұқсас векторды табу үшін ұқсастық метрикасын қолданамыз.

Векторлық деректер базасы ең жақын көршілерді іздеуге (ANN) қатысатын бірнеше алгоритмдердің тіркесімін пайдаланады. Бұл алгоритмдер хэштеу, кванттау немесе график негізінде іздеу арқылы іздеуді оңтайландырады.

Бұл алгоритмдер сұралған вектордың көршілерін жылдам және дәл алуды қамтамасыз ететін құбырға жинақталған. Векторлық дерекқор шамамен нәтижелерді беретіндіктен, біз қарастыратын негізгі айырбастар дәлдік пен жылдамдық арасында. Нәтиже неғұрлым дәл болса, сұрау соғұрлым баяу болады. Дегенмен, жақсы жүйе мінсіз дәлдікпен ультра жылдам іздеуді қамтамасыз ете алады.

  • Индекстеу : Векторлық дерекқор PQ, LSH немесе HNSW сияқты алгоритмді пайдаланып векторларды индекстейді. Бұл қадам векторларды жылдам іздеуге мүмкіндік беретін деректер құрылымымен байланыстырады.
  • Сұрау : векторлық дерекқор ең жақын көршілерді табу үшін индекстелген сұрау векторын деректер жиынындағы индекстелген векторлармен салыстырады (сол индекс пайдаланатын ұқсастық метрикасын қолдану)
  • Кейінгі өңдеу : Кейбір жағдайларда векторлық дерекқор деректер жиынынан соңғы жақын көршілерді алады және түпкілікті нәтижелерді қайтару үшін оларды кейін өңдейді. Бұл қадам басқа ұқсастық өлшемін пайдаланып ең жақын көршілерді қайта жіктеуді қамтуы мүмкін.

артықшылықтары

Векторлық деректер базасы дәстүрлі деректер қорын пайдалану арқылы тиімді орындалмайтын үлкен деректер жиындарында ұқсастықтарды іздеуге және басқа да күрделі операцияларға арналған қуатты құрал болып табылады. Функционалды векторлық дерекқорды құру үшін ендірілгендер маңызды, өйткені олар деректердің семантикалық мағынасын алады және ұқсастықты дәл іздеуге мүмкіндік береді. Векторлық кітапханалардан айырмашылығы, векторлық дерекқорлар біздің пайдалану жағдайымызға сай етіп жасалған, бұл оларды өнімділік пен ауқымдылық маңызды болып табылатын қолданбалар үшін өте қолайлы етеді. Машиналық оқытудың және жасанды интеллекттің өсуімен векторлық деректер базасы кеңес беру жүйелері, кескін іздеу, семантикалық ұқсастық және тізімді қоса алғанда, қосымшалардың кең ауқымы үшін маңызды бола түсуде. Өрістің дамуы жалғасуда, біз болашақта векторлық деректер базасының бұдан да инновациялық қосымшаларын көреміз деп күтуге болады.

Ercole Palmeri

Инновациялық ақпараттық бюллетень
Инновация туралы ең маңызды жаңалықтарды жіберіп алмаңыз. Оларды электрондық пошта арқылы алу үшін тіркеліңіз.

Соңғы мақалалар

Баспагерлер мен OpenAI жасанды интеллект өңдейтін ақпарат ағынын реттеу үшін келісімдерге қол қояды.

Өткен дүйсенбіде Financial Times OpenAI-мен келісім туралы жариялады. FT өзінің әлемдік деңгейдегі журналистикасына лицензия береді…

30 Сәуір 2024

Онлайн төлемдер: Міне, ағынды қызметтер сізге мәңгілік төлем жасауға мүмкіндік береді

Миллиондаған адамдар ай сайынғы абоненттік төлемді төлей отырып, ағынды қызметтерге ақы төлейді. Жалпы пікір, сіз…

29 Сәуір 2024

Veeam қорғаныстан жауап беруге және қалпына келтіруге дейін төлемдік бағдарламалық құралға ең жан-жақты қолдау көрсетеді

Veeam ұсынған Coveware кибербопсалау оқиғаларына жауап беру қызметтерін көрсетуді жалғастырады. Coveware криминалистикалық және қалпына келтіру мүмкіндіктерін ұсынады ...

23 Сәуір 2024

Жасыл және цифрлық революция: болжамды техникалық қызмет көрсету мұнай және газ саласын қалай өзгертеді

Болжалды техникалық қызмет көрсету зауытты басқаруға инновациялық және белсенді көзқараспен мұнай және газ секторында төңкеріс жасайды.…

22 Сәуір 2024

Инновацияны өз тіліңізде оқыңыз

Инновациялық ақпараттық бюллетень
Инновация туралы ең маңызды жаңалықтарды жіберіп алмаңыз. Оларды электрондық пошта арқылы алу үшін тіркеліңіз.

Артымыздан