Artikoli

X'inhuma l-vector databases, kif jaħdmu u s-suq potenzjali

Database ta' vettur hija tip ta' database li taħżen data bħala vettori ta' dimensjoni għolja, li huma rappreżentazzjonijiet matematiċi ta' karatteristiċi jew attributi. 

Dawn il-vettori huma ġeneralment iġġenerati billi tiġi applikata xi tip ta 'funzjoni ta' inkorporazzjoni għal data mhux ipproċessata, bħal test, stampi, awdjo, vidjo, u oħrajn.

Databases tal-vettur jistgħu jkunu definite bħala għodda li tindika u taħżen inkorporati ta' vettori għal irkupru rapidu u tfittxija ta' xebh, b'karatteristiċi bħall-iffiltrar tal-metadejta u l-iskala orizzontali.

Ħin tal-qari stmat: 9 minuta

Interess tal-Investitur li qed jikber

Fl-aħħar ġimgħat, kien hemm żieda fl-interess tal-investituri fil-vector databases. Mill-bidu tal-2023 aħna ndunajna li:

Ejja naraw f'aktar dettall x'inhuma l-vector databases.

Vettori bħala rappreżentazzjoni tad-dejta

Id-databases tal-vector jiddependu ħafna fuq l-inkorporazzjoni tal-vettur, tip ta’ rappreżentazzjoni tad-dejta li ġġorr fiha l-informazzjoni semantika kritika għall-AI biex tikseb fehim u żżomm memorja fit-tul biex tibbaża fuqha meta tesegwixxi attivitajiet kumplessi. 

Inkorporati tal-vettur

L-inkorporazzjonijiet tal-vector huma bħal mappa, iżda minflok juruna fejn jinsabu l-affarijiet fid-dinja, juruna fejn qegħdin l-affarijiet f'xi ħaġa msejħa spazju vettur. L-ispazju tal-vettur huwa tip ta’ bitħa kbira fejn kollox għandu l-post fejn jilgħab. Immaġina li għandek grupp ta’ annimali: qattus, kelb, għasfur u ħuta. Nistgħu noħolqu vector embed għal kull immaġini billi nagħtuha pożizzjoni speċjali fuq il-bitħa. Il-qattus jista 'jkun f'rokna waħda, il-kelb fuq in-naħa l-oħra. L-għasfur jista 'jkun fis-sema u l-ħut jista' jkun fl-għadira. Dan il-post huwa spazju multidimensjonali. Kull dimensjoni tikkorrispondi għal aspetti differenti tagħhom, pereżempju, il-ħut għandhom xewk, l-għasafar għandhom ġwienaħ, il-qtates u l-klieb għandhom saqajn. Aspett ieħor minnhom jista 'jkun li l-ħut jappartjeni għall-ilma, l-għasafar prinċipalment għas-sema, u l-qtates u l-klieb għall-art. Ladarba jkollna dawn il-vettori, nistgħu nużaw tekniki matematiċi biex niġbruhom ibbażati fuq ix-xebh tagħhom. Ibbażat fuq l-informazzjoni li nżommu,

Allura, l-inkorporazzjonijiet tal-vettur huma bħal mappa li tgħinna nsibu xebh bejn l-affarijiet fl-ispazju tal-vettur. Hekk kif mappa tgħinna nnavigaw fid-dinja, l-inkorporazzjonijiet tal-vectors jgħinu biex jinnavigaw il-bitħa tal-vettur.

L-idea ewlenija hija li l-embeds li huma semantikament simili għal xulxin għandhom distanza iżgħar bejniethom. Biex insiru nafu kemm huma simili, nistgħu nużaw funzjonijiet tad-distanza tal-vettur bħad-distanza Ewklidjana, id-distanza tal-cosine, eċċ.

Databases vector vs libreriji vector

Il-libreriji tal-vettur jaħżnu inkorporazzjonijiet ta 'vettori f'indiċi fil-memorja, sabiex iwettqu tfittxijiet ta' xebh. Il-libreriji tal-vettorjali għandhom il-karatteristiċi/limitazzjonijiet li ġejjin:

  1. Aħżen vettori biss : Il-libreriji tal-vector jaħżnu biss inkorporazzjonijiet ta' vettori u mhux l-oġġetti assoċjati li minnhom ġew iġġenerati. Dan ifisser li meta nistaqsu, librerija tal-vettur tirrispondi bil-vettori rilevanti u l-IDs tal-oġġetti. Dan huwa limitat peress li l-informazzjoni attwali hija maħżuna fl-oġġett u mhux l-id. Biex issolvi din il-problema, għandna naħżnu l-oġġetti f'ħażna sekondarja. Imbagħad nistgħu nużaw l-IDs ritornati mill-mistoqsija u nqabbluhom ma 'oġġetti biex nifhmu r-riżultati.
  2. Id-dejta tal-indiċi hija immutabbli : L-indiċi prodotti minn libreriji ta' vettur huma immutabbli. Dan ifisser li ladarba importajna d-dejta tagħna u bnejna l-indiċi, ma nistgħux nagħmlu l-ebda tibdil (l-ebda inserzjonijiet, tħassir jew bidliet ġodda). Biex nagħmlu bidliet fl-indiċi tagħna, ikollna nibnuha mill-ġdid mill-bidu
  3. Mistoqsija filwaqt li tirrestrinġi l-importazzjoni : Il-biċċa l-kbira tal-libreriji tal-vector ma jistgħux jiġu mistoqsija waqt l-importazzjoni tad-dejta. Jeħtieġ li l-ewwel nimportaw l-oġġetti kollha tad-dejta tagħna. Allura l-indiċi jinħoloq wara li l-oġġetti jiġu importati. Dan jista 'jkun problema għal applikazzjonijiet li jeħtieġu miljuni jew saħansitra biljuni ta' oġġetti biex jiġu importati.

Hemm ħafna libreriji ta' tiftix ta' vettori disponibbli: FAISS ta' Facebook, Iddejjaq minn Spotify u ScanNN minn Google. FAISS juża metodu ta 'clustering, Annoy juża siġar u ScanNN juża kompressjoni tal-vettur. Hemm kompromess tal-prestazzjoni għal kull wieħed, li nistgħu nagħżlu abbażi tal-metriċi tal-applikazzjoni u l-prestazzjoni tagħna.

CRUD

Il-karatteristika ewlenija li tiddistingwi databases tal-vettur minn libreriji tal-vettur hija l-abbiltà li arkivja, taġġorna u tħassar id-dejta. Id-databases tal-vettur għandhom appoġġ CRUD kompluta (oħloq, aqra, taġġorna u ħassar) li ssolvi l-limitazzjonijiet ta 'librerija ta' vettur.

  1. Vetturi tal-arkivji u oġġetti : Il-bażijiet tad-dejta jistgħu jaħżnu kemm oġġetti tad-dejta kif ukoll vettori. Peress li t-tnejn huma maħżuna, nistgħu ngħaqqdu t-tfittxija tal-vettur ma 'filtri strutturati. Il-filtri jippermettulna niżguraw li l-eqreb ġirien jaqblu mal-filtru tal-metadata.
  2. Mutabbiltà : bħala databases tal-vettur jappoġġjaw bis-sħiħ krud, nistgħu faċilment inżidu, ineħħu jew naġġornaw l-entrati fl-indiċi tagħna wara li jkun inħoloq. Dan huwa speċjalment utli meta taħdem b'dejta li tinbidel kontinwament.
  3. Tfittxija f'ħin reali : B'differenza mill-libreriji tal-vector, id-databases jippermettulna nistaqsu u timmodifika d-dejta tagħna matul il-proċess tal-importazzjoni. Hekk kif aħna tagħbija miljuni ta 'oġġetti, id-dejta importata tibqa' kompletament aċċessibbli u operattiva, sabiex ma jkollokx għalfejn tistenna li l-importazzjoni titlesta biex tibda taħdem fuq dak li diġà hemm.

Fil-qosor, database tal-vettur tipprovdi soluzzjoni superjuri għall-immaniġġjar tal-vector embeds billi tindirizza l-limitazzjonijiet tal-indiċijiet tal-vettur awtonomi kif diskuss fil-punti preċedenti.

Imma x'jagħmel il-vector databases superjuri għal databases tradizzjonali?

Databases vector vs databases tradizzjonali

Id-databases tradizzjonali huma ddisinjati biex jaħżnu u jirkupraw data strutturata bl-użu ta’ mudelli relazzjonali, li jfisser li huma ottimizzati għal mistoqsijiet ibbażati fuq kolonni u ringieli ta’ data. Filwaqt li huwa possibbli li jinħażnu inkorporazzjonijiet ta 'vettur f'databases tradizzjonali, dawn id-databases mhumiex ottimizzati għal operazzjonijiet ta' vettur u ma jistgħux iwettqu tfittxijiet ta 'xebh jew operazzjonijiet kumplessi oħra fuq settijiet ta' data kbar b'mod effiċjenti.

Dan għaliex id-databases tradizzjonali jużaw tekniki ta’ indiċjar ibbażati fuq tipi ta’ data sempliċi, bħal kordi jew numri. Dawn it-tekniki ta 'indiċjar mhumiex adattati għal data tal-vettur, li għandha dimensjonalità għolja u teħtieġ tekniki ta' indiċjar speċjalizzati bħal indiċijiet invertiti jew siġar spazjali.

Ukoll, id-databases tradizzjonali mhumiex iddisinjati biex jimmaniġġjaw l-ammonti kbar ta 'dejta mhux strutturata jew semi-strutturata ta' spiss assoċjata ma 'vector embeds. Pereżempju, fajl ta 'immaġni jew awdjo jista' jkun fih miljuni ta 'punti ta' dejta, li databases tradizzjonali ma jistgħux jimmaniġġjaw b'mod effiċjenti.

Id-databases tal-vettur, min-naħa l-oħra, huma ddisinjati speċifikament biex jaħżnu u jirkupraw data tal-vettur u huma ottimizzati għal tfittxijiet ta 'xebh u operazzjonijiet kumplessi oħra fuq settijiet ta' data kbar. Huma jużaw tekniki speċjalizzati ta 'indiċjar u algoritmi ddisinjati biex jaħdmu b'dejta ta' dimensjoni għolja, li jagħmluhom ħafna aktar effiċjenti minn databases tradizzjonali għall-ħażna u l-irkupru ta 'vector embeds.

Issa li qrajt ħafna dwar il-vector databases, tista' tkun qed tistaqsi, kif jaħdmu? Ejja nagħtu ħarsa.

Kif taħdem database tal-vettur?

Ilkoll nafu kif jaħdmu d-databases relazzjonali: jaħżnu strings, numri, u tipi oħra ta’ data skalari f’ringieli u kolonni. Min-naħa l-oħra, database tal-vettur topera fuq vettori, għalhekk il-mod kif tiġi ottimizzata u mistoqsija hija pjuttost differenti.

F'databases tradizzjonali, aħna normalment nistaqsu għal ringieli fid-database fejn il-valur normalment jaqbel mal-mistoqsija tagħna eżattament. Fil-vector databases, aħna napplikaw metrika ta’ xebh biex insibu vettur li huwa l-aktar simili għall-mistoqsija tagħna.

Database ta' vettur juża taħlita ta' diversi algoritmi li kollha jipparteċipaw fit-tfittxija tal-eqreb ġar (ANN). Dawn l-algoritmi jottimizzaw it-tfittxija permezz ta' hashing, kwantizzazzjoni jew tfittxija bbażata fuq graff.

Dawn l-algoritmi huma mmuntati f'pipeline li jipprovdi rkupru mgħaġġel u preċiż tal-ġirien ta 'vettur mistoqsi. Peress li d-database tal-vettur tipprovdi riżultati approssimattivi, il-kompromessi ewlenin li nikkunsidraw huma bejn l-eżattezza u l-veloċità. Aktar ma jkun preċiż ir-riżultat, iktar tkun bil-mod il-mistoqsija. Madankollu, sistema tajba tista 'tipprovdi tiftix ultra-veloċi bi preċiżjoni kważi perfetta.

  • Indiċjar : Id-database tal-vettur tindika vettori bl-użu ta' algoritmu bħal PQ, LSH jew HNSW. Dan il-pass jassoċja l-vettori ma' struttura tad-dejta li tippermetti tiftix aktar mgħaġġel.
  • Mistoqsija : database tal-vettur tqabbel il-vettur ta' mistoqsija indiċjat ma' vectors indiċjati fis-sett tad-dejta biex issib l-eqreb ġirien (bl-applikazzjoni ta' metrika ta' xebh użata minn dak l-indiċi)
  • Post-ipproċessar : F'xi każijiet, il-vector database iġib l-eqreb ġirien finali mis-sett tad-dejta u tipproċessahom wara biex tirritorna r-riżultati finali. Dan il-pass jista' jinkludi klassifikazzjoni mill-ġdid tal-eqreb ġirien bl-użu ta' miżura ta' xebh differenti.

benefiċċji

Id-databases tal-vettur huma għodda qawwija għal tfittxijiet ta’ xebh u operazzjonijiet kumplessi oħra fuq settijiet kbar ta’ data, li ma jistgħux jitwettqu b’mod effettiv bl-użu ta’ databases tradizzjonali. Biex tinbena database ta 'vettur funzjonali, l-inkorporazzjonijiet huma essenzjali, peress li jaqbdu t-tifsira semantika tad-dejta u jippermettu tfittxijiet preċiżi ta' xebh. B'differenza mill-libreriji tal-vector, il-vector databases huma ddisinjati biex jaqblu mal-każ tal-użu tagħna, u jagħmluhom ideali għal applikazzjonijiet fejn il-prestazzjoni u l-iskalabbiltà huma kritiċi. Biż-żieda tat-tagħlim tal-magni u l-intelliġenza artifiċjali, id-databases tal-vettur qed isiru dejjem aktar importanti għal firxa wiesgħa ta 'applikazzjonijiet inklużi sistemi ta' rakkomandazzjoni, tfittxija ta 'immaġni, xebh semantiku u l-lista tkompli. Hekk kif il-qasam ikompli jevolvi, nistgħu nistennew li naraw applikazzjonijiet saħansitra aktar innovattivi ta 'databases ta' vettur fil-futur.

Ercole Palmeri

Newsletter dwar l-innovazzjoni
Titlifx l-aktar aħbarijiet importanti dwar l-innovazzjoni. Irreġistra biex tirċevihom bl-email.

Artikoli riċenti

Veeam għandu l-aktar appoġġ komprensiv għar-ransomware, mill-protezzjoni għar-rispons u l-irkupru

Coveware minn Veeam se jkompli jipprovdi servizzi ta' rispons għal inċidenti ta' estorsjoni ċibernetika. Coveware se joffri forensiċi u kapaċitajiet ta' rimedju...

April 23 2024

Rivoluzzjoni Ekoloġika u Diġitali: Kif il-Manutenzjoni Predittiva qed tittrasforma l-Industrija taż-Żejt u l-Gass

Il-manutenzjoni ta’ tbassir qed tirrivoluzzjona s-settur taż-żejt u l-gass, b’approċċ innovattiv u proattiv għall-ġestjoni tal-impjant...

April 22 2024

Ir-regolatur tal-antitrust tar-Renju Unit iqajjem allarm ta’ BigTech fuq GenAI

Is-CMA tar-Renju Unit ħarġet twissija dwar l-imġieba ta 'Big Tech fis-suq tal-intelliġenza artifiċjali. Hemm…

April 18 2024

Casa Green: rivoluzzjoni tal-enerġija għal futur sostenibbli fl-Italja

Id-Digriet "Case Green", ifformulat mill-Unjoni Ewropea biex itejjeb l-effiċjenza enerġetika tal-bini, ikkonkluda l-proċess leġiżlattiv tiegħu bi...

April 18 2024