Артыкулы

Што такое вектарныя базы дадзеных, як яны працуюць і патэнцыяльны рынак

Вектарная база дадзеных - гэта тып базы дадзеных, якая захоўвае даныя ў выглядзе шматмерных вектараў, якія з'яўляюцца матэматычным прадстаўленнем функцый або атрыбутаў. 

Гэтыя вектары звычайна ствараюцца шляхам прымянення нейкай функцыі ўбудавання да неапрацаваных дадзеных, такіх як тэкст, малюнкі, аўдыё, відэа і іншыя.

Вектарныя базы даных могуць быць definite як інструмент, які індэксуе і захоўвае вектарныя ўбудовы для хуткага пошуку і падабенства з такімі функцыямі, як фільтраванне метададзеных і гарызантальнае маштабаванне.

Разліковы час чытання: 9 хвілін

Расце цікавасць інвестараў

У апошнія тыдні назіраецца рост цікавасці інвестараў да вектарных баз дадзеных. З пачатку 2023 года мы заўважылі, што:

Разбярэмся больш падрабязна, што такое вектарныя базы дадзеных.

Вектары як прадстаўленне даных

Вектарныя базы даных у значнай ступені абапіраюцца на вектарнае ўбудаванне, тып прадстаўлення даных, які нясе ў сабе семантычную інфармацыю, крытычна важную для ІІ для разумення і захавання доўгатэрміновай памяці для выкарыстання пры выкананні складаных дзеянняў. 

Вектарныя ўстаўкі

Вектарныя ўбудовы падобныя на карту, але замест таго, каб паказаць нам, дзе знаходзяцца рэчы ў свеце, яны паказваюць, дзе рэчы знаходзяцца ў нечым, што называецца вектарная прастора. Vector space - гэта накшталт вялікай дзіцячай пляцоўкі, дзе ўсё мае сваё месца для гульні. Уявіце, што ў вас ёсць група жывёл: кот, сабака, птушка і рыба. Мы можам стварыць вектарнае ўбудаванне для кожнага малюнка, надаўшы яму спецыяльнае месца на гульнявой пляцоўцы. Кот можа быць у адным куце, сабака - у другім. Птушка магла быць у небе, а рыба магла быць у сажалцы. Гэта месца - шматмерная прастора. Кожнае вымярэнне адпавядае розным іх аспектам, напрыклад, у рыб ёсць плаўнікі, у птушак - крылы, у катоў і сабак - ногі. Іншым іх аспектам можа быць тое, што рыбы належаць да вады, птушкі - пераважна да неба, а кошкі і сабакі - да зямлі. Калі ў нас ёсць гэтыя вектары, мы можам выкарыстоўваць матэматычныя метады, каб згрупаваць іх на аснове іх падабенства. На падставе інфармацыі, якую мы маем,

Такім чынам, вектарныя ўбудовы падобныя на карту, якая дапамагае нам знайсці падабенства паміж рэчамі ў вектарнай прасторы. Гэтак жа, як карта дапамагае нам арыентавацца ў свеце, вектарныя ўстаўкі дапамагаюць арыентавацца на вектарнай пляцоўцы.

Ключавая ідэя заключаецца ў тым, што ўбудаваныя элементы, семантычна падобныя адна да адной, маюць меншую адлегласць паміж сабой. Каб даведацца, наколькі яны падобныя, мы можам выкарыстоўваць вектарныя функцыі адлегласці, такія як эўклідава адлегласць, косінусная адлегласць і г.д.

Вектарныя базы дадзеных супраць вектарных бібліятэк

Вектарныя бібліятэкі захоўваць убудаваныя вектары ў індэксы ў памяці, каб выконваць пошук падабенства. Вектарныя бібліятэкі маюць наступныя характарыстыкі/абмежаванні:

  1. Захоўваць толькі вектары : вектарныя бібліятэкі захоўваюць толькі ўбудаваныя вектары, а не звязаныя з імі аб'екты, з якіх яны былі створаны. Гэта азначае, што калі мы запытваем, вектарная бібліятэка адкажа адпаведнымі вектарамі і ідэнтыфікатарамі аб'ектаў. Гэта абмежаванне, паколькі фактычная інфармацыя захоўваецца ў аб'екце, а не ў ідэнтыфікатары. Каб вырашыць гэтую праблему, мы павінны захоўваць аб'екты ў другасным сховішчы. Затым мы можам выкарыстоўваць ідэнтыфікатары, вернутыя запытам, і супаставіць іх з аб'ектамі, каб зразумець вынікі.
  2. Даныя індэкса нязменныя : Індэксы, створаныя вектарнымі бібліятэкамі, нязменныя. Гэта азначае, што пасля таго, як мы імпартавалі нашы даныя і пабудавалі індэкс, мы не можам рабіць ніякіх змяненняў (ніякіх новых уставак, выдаленняў або змяненняў). Каб унесці змены ў наш індэкс, нам давядзецца аднавіць яго з нуля
  3. Запыт пры абмежаванні імпарту : большасць вектарных бібліятэк нельга запытваць падчас імпарту дадзеных. Спачатку нам трэба імпартаваць усе нашы аб'екты дадзеных. Такім чынам, індэкс ствараецца пасля імпарту аб'ектаў. Гэта можа быць праблемай для прыкладанняў, якія патрабуюць імпартаваць мільёны ці нават мільярды аб'ектаў.

Ёсць шмат даступных бібліятэк вектарнага пошуку: FAISS з Facebook, раздражняць ад Spotify і ScanNN ад Google. FAISS выкарыстоўвае метад кластарызацыі, Annoy выкарыстоўвае дрэвы, а ScanNN выкарыстоўвае вектарнае сцісканне. Для кожнага існуе кампраміс прадукцыйнасці, які мы можам выбраць на аснове нашага прыкладання і паказчыкаў прадукцыйнасці.

CRUD

Галоўная асаблівасць, якая адрознівае вектарныя базы дадзеных ад вектарных бібліятэк, - магчымасць архівавання, абнаўлення і выдалення даных. Вектарныя базы даных маюць падтрымку CRUD поўны (стварэнне, чытанне, абнаўленне і выдаленне), які вырашае абмежаванні вектарнай бібліятэкі.

  1. Архіўныя вектары і аб'екты : Базы даных могуць захоўваць як аб'екты даных, так і вектары. Паколькі абодва захоўваюцца, мы можам камбінаваць вектарны пошук са структураванымі фільтрамі. Фільтры дазваляюць пераканацца, што бліжэйшыя суседзі адпавядаюць фільтру метададзеных.
  2. Зменлівасць : як вектарныя базы дадзеных цалкам падтрымліваюцца сыр, мы можам лёгка дадаваць, выдаляць або абнаўляць запісы ў нашым індэксе пасля яго стварэння. Гэта асабліва карысна пры працы з пастаянна змяняюцца дадзенымі.
  3. Пошук у рэжыме рэальнага часу : У адрозненне ад вектарных бібліятэк, базы даных дазваляюць нам запытваць і змяняць нашы даныя ў працэсе імпарту. Калі мы загружаем мільёны аб'ектаў, імпартаваныя даныя застаюцца цалкам даступнымі і функцыянальнымі, таму вам не трэба чакаць завяршэння імпарту, каб пачаць працаваць над тым, што ўжо ёсць.

Карацей кажучы, вектарная база дадзеных забяспечвае найвышэйшае рашэнне для апрацоўкі вектарных убудоў за кошт ліквідацыі абмежаванняў аўтаномных вектарных індэксаў, як абмяркоўвалася ў папярэдніх пунктах.

Але чым вектарныя базы даных пераўзыходзяць традыцыйныя?

Вектарныя базы даных супраць традыцыйных баз даных

Традыцыйныя базы дадзеных прызначаны для захоўвання і атрымання структураваных даных з выкарыстаннем рэляцыйных мадэляў, што азначае, што яны аптымізаваны для запытаў на аснове слупкоў і радкоў даных. Нягледзячы на ​​тое, што вектарныя ўбудовы можна захоўваць у традыцыйных базах дадзеных, гэтыя базы дадзеных не аптымізаваныя для вектарных аперацый і не могуць эфектыўна выконваць пошук падабенства або іншыя складаныя аперацыі з вялікімі наборамі даных.

Гэта адбываецца таму, што традыцыйныя базы даных выкарыстоўваюць метады індэксацыі, заснаваныя на простых тыпах даных, такіх як радкі або лічбы. Гэтыя метады індэксацыі не падыходзяць для вектарных даных, якія маюць высокую памернасць і патрабуюць спецыяльных метадаў індэксавання, такіх як інвертаваныя індэксы або прасторавыя дрэвы.

Акрамя таго, традыцыйныя базы даных не прызначаны для апрацоўкі вялікіх аб'ёмаў неструктураваных або паўструктураваных даных, часта звязаных з вектарнымі ўстаўкамі. Напрыклад, малюнак або аўдыяфайл можа ўтрымліваць мільёны пунктаў даных, з якімі традыцыйныя базы дадзеных не могуць эфектыўна апрацоўваць.

Вектарныя базы дадзеных, з іншага боку, спецыяльна распрацаваны для захоўвання і атрымання вектарных даных і аптымізаваны для пошуку падабенства і іншых складаных аперацый з вялікімі наборамі даных. Яны выкарыстоўваюць спецыялізаваныя метады індэксацыі і алгарытмы, прызначаныя для працы з данымі вялікай памернасці, што робіць іх значна больш эфектыўнымі, чым традыцыйныя базы даных для захоўвання і атрымання вектарных убудоў.

Цяпер, калі вы так шмат прачыталі пра вектарныя базы дадзеных, вы можаце задацца пытаннем, як яны працуюць? Давайце паглядзім.

Як працуе вектарная база дадзеных?

Мы ўсе ведаем, як працуюць рэляцыйныя базы дадзеных: яны захоўваюць радкі, лічбы і іншыя тыпы скалярных даных у радках і слупках. З іншага боку, вектарная база дадзеных працуе з вектарамі, таму спосабы яе аптымізацыі і запыту зусім іншыя.

У традыцыйных базах дадзеных мы звычайна запытваем радкі ў базе дадзеных, значэнне якіх звычайна дакладна адпавядае нашаму запыту. У вектарных базах даных мы ўжываем метрыку падабенства, каб знайсці вектар, найбольш падобны на наш запыт.

Вектарная база дадзеных выкарыстоўвае камбінацыю некалькіх алгарытмаў, якія ўдзельнічаюць у пошуку бліжэйшых суседзяў (ANN). Гэтыя алгарытмы аптымізуюць пошук шляхам хэшавання, квантавання або пошуку на аснове графаў.

Гэтыя алгарытмы сабраны ў канвеер, які забяспечвае хуткі і дакладны пошук суседзяў запытанага вектара. Паколькі вектарная база дае прыблізныя вынікі, мы разглядаем асноўныя кампрамісы паміж дакладнасцю і хуткасцю. Чым больш дакладны вынік, тым павольней будзе выкананне запыту. Аднак добрая сістэма можа забяспечыць звышхуткі пошук з амаль ідэальнай дакладнасцю.

  • Індэксацыя : вектарная база дадзеных індэксуе вектары, выкарыстоўваючы такі алгарытм, як PQ, LSH або HNSW. Гэты крок звязвае вектары са структурай даных, што дазваляе паскорыць пошук.
  • запыт : вектарная база дадзеных параўноўвае індэксаваны вектар запыту з індэксаванымі вектарамі ў наборы даных, каб знайсці бліжэйшых суседзяў (прымяняючы метрыку падабенства, якая выкарыстоўваецца гэтым індэксам)
  • Пост-апрацоўка : У некаторых выпадках вектарная база дадзеных выбірае канчатковых бліжэйшых суседзяў з набору даных і апрацоўвае іх, каб вярнуць канчатковыя вынікі. Гэты крок можа ўключаць перакласіфікацыю бліжэйшых суседзяў з выкарыстаннем іншай меры падабенства.

льготы

Вектарныя базы даных з'яўляюцца магутным інструментам для пошуку падабенства і іншых складаных аперацый над вялікімі наборамі даных, якія немагчыма эфектыўна выканаць з дапамогай традыцыйных баз даных. Каб пабудаваць функцыянальную вектарную базу дадзеных, убудоўванні вельмі важныя, бо яны фіксуюць семантычны сэнс даных і забяспечваюць дакладны пошук падабенства. У адрозненне ад вектарных бібліятэк, вектарныя базы дадзеных распрацаваны ў адпаведнасці з нашым варыянтам выкарыстання, што робіць іх ідэальнымі для прыкладанняў, дзе прадукцыйнасць і маштабаванасць маюць вырашальнае значэнне. З ростам машыннага навучання і штучнага інтэлекту вектарныя базы даных становяцца ўсё больш важнымі для шырокага спектру прыкладанняў, уключаючы сістэмы рэкамендацый, пошук малюнкаў, семантычнае падабенства і гэты спіс можна працягваць. Паколькі сфера працягвае развівацца, мы можам чакаць, што ў будучыні мы ўбачым яшчэ больш інавацыйных прымянення вектарных баз даных.

Ercole Palmeri

Інавацыйны бюлетэнь
Не прапусціце самыя важныя навіны пра інавацыі. Падпішыцеся, каб атрымліваць іх па электроннай пошце.

Апошнія артыкулы

Выдаўцы і OpenAI падпісваюць пагадненні аб рэгуляванні патоку інфармацыі, апрацаванай штучным інтэлектам

У мінулы панядзелак Financial Times абвясціла аб здзелцы з OpenAI. FT ліцэнзуе сваю журналістыку сусветнага ўзроўню...

Красавік 30 2024

Інтэрнэт-плацяжы: вось як паслугі струменевай перадачы прымушаюць вас плаціць вечна

Мільёны людзей плацяць за струменевыя паслугі, плацячы штомесячную абаненцкую плату. Распаўсюджана меркаванне, што вы…

Красавік 29 2024

Veeam прапануе самую поўную падтрымку праграм-вымагальнікаў - ад абароны да адказу і аднаўлення

Coveware ад Veeam працягне прадастаўляць паслугі рэагавання на інцыдэнты кібервымагальніцтва. Coveware будзе прапаноўваць судова-медыцынскую экспертызу і магчымасці выпраўлення…

Красавік 23 2024

Зялёная і лічбавая рэвалюцыя: як прагнознае тэхнічнае абслугоўванне трансфармуе нафтагазавую прамысловасць

Прагнастычнае тэхнічнае абслугоўванне рэвалюцыянізуе нафтагазавы сектар з інавацыйным і актыўным падыходам да кіравання заводам.…

Красавік 22 2024

Чытайце Innovation на сваёй мове

Інавацыйны бюлетэнь
Не прапусціце самыя важныя навіны пра інавацыі. Падпішыцеся, каб атрымліваць іх па электроннай пошце.

Выконвайце за намі