Ħin tal-qari stmat: 9 minuta
Fl-aħħar ġimgħat, kien hemm żieda fl-interess tal-investituri fil-vector databases. Mill-bidu tal-2023 aħna ndunajna li:
Ejja naraw f'aktar dettall x'inhuma l-vector databases.
Id-databases tal-vector jiddependu ħafna fuq l-inkorporazzjoni tal-vettur, tip ta’ rappreżentazzjoni tad-dejta li ġġorr fiha l-informazzjoni semantika kritika għall-AI biex tikseb fehim u żżomm memorja fit-tul biex tibbaża fuqha meta tesegwixxi attivitajiet kumplessi.
L-inkorporazzjonijiet tal-vector huma bħal mappa, iżda minflok juruna fejn jinsabu l-affarijiet fid-dinja, juruna fejn qegħdin l-affarijiet f'xi ħaġa msejħa spazju vettur. L-ispazju tal-vettur huwa tip ta’ bitħa kbira fejn kollox għandu l-post fejn jilgħab. Immaġina li għandek grupp ta’ annimali: qattus, kelb, għasfur u ħuta. Nistgħu noħolqu vector embed għal kull immaġini billi nagħtuha pożizzjoni speċjali fuq il-bitħa. Il-qattus jista 'jkun f'rokna waħda, il-kelb fuq in-naħa l-oħra. L-għasfur jista 'jkun fis-sema u l-ħut jista' jkun fl-għadira. Dan il-post huwa spazju multidimensjonali. Kull dimensjoni tikkorrispondi għal aspetti differenti tagħhom, pereżempju, il-ħut għandhom xewk, l-għasafar għandhom ġwienaħ, il-qtates u l-klieb għandhom saqajn. Aspett ieħor minnhom jista 'jkun li l-ħut jappartjeni għall-ilma, l-għasafar prinċipalment għas-sema, u l-qtates u l-klieb għall-art. Ladarba jkollna dawn il-vettori, nistgħu nużaw tekniki matematiċi biex niġbruhom ibbażati fuq ix-xebh tagħhom. Ibbażat fuq l-informazzjoni li nżommu,
Allura, l-inkorporazzjonijiet tal-vettur huma bħal mappa li tgħinna nsibu xebh bejn l-affarijiet fl-ispazju tal-vettur. Hekk kif mappa tgħinna nnavigaw fid-dinja, l-inkorporazzjonijiet tal-vectors jgħinu biex jinnavigaw il-bitħa tal-vettur.
L-idea ewlenija hija li l-embeds li huma semantikament simili għal xulxin għandhom distanza iżgħar bejniethom. Biex insiru nafu kemm huma simili, nistgħu nużaw funzjonijiet tad-distanza tal-vettur bħad-distanza Ewklidjana, id-distanza tal-cosine, eċċ.
Il-libreriji tal-vettur jaħżnu inkorporazzjonijiet ta 'vettori f'indiċi fil-memorja, sabiex iwettqu tfittxijiet ta' xebh. Il-libreriji tal-vettorjali għandhom il-karatteristiċi/limitazzjonijiet li ġejjin:
Hemm ħafna libreriji ta' tiftix ta' vettori disponibbli: FAISS ta' Facebook, Iddejjaq minn Spotify u ScanNN minn Google. FAISS juża metodu ta 'clustering, Annoy juża siġar u ScanNN juża kompressjoni tal-vettur. Hemm kompromess tal-prestazzjoni għal kull wieħed, li nistgħu nagħżlu abbażi tal-metriċi tal-applikazzjoni u l-prestazzjoni tagħna.
Il-karatteristika ewlenija li tiddistingwi databases tal-vettur minn libreriji tal-vettur hija l-abbiltà li arkivja, taġġorna u tħassar id-dejta. Id-databases tal-vettur għandhom appoġġ CRUD kompluta (oħloq, aqra, taġġorna u ħassar) li ssolvi l-limitazzjonijiet ta 'librerija ta' vettur.
Fil-qosor, database tal-vettur tipprovdi soluzzjoni superjuri għall-immaniġġjar tal-vector embeds billi tindirizza l-limitazzjonijiet tal-indiċijiet tal-vettur awtonomi kif diskuss fil-punti preċedenti.
Imma x'jagħmel il-vector databases superjuri għal databases tradizzjonali?
Id-databases tradizzjonali huma ddisinjati biex jaħżnu u jirkupraw data strutturata bl-użu ta’ mudelli relazzjonali, li jfisser li huma ottimizzati għal mistoqsijiet ibbażati fuq kolonni u ringieli ta’ data. Filwaqt li huwa possibbli li jinħażnu inkorporazzjonijiet ta 'vettur f'databases tradizzjonali, dawn id-databases mhumiex ottimizzati għal operazzjonijiet ta' vettur u ma jistgħux iwettqu tfittxijiet ta 'xebh jew operazzjonijiet kumplessi oħra fuq settijiet ta' data kbar b'mod effiċjenti.
Dan għaliex id-databases tradizzjonali jużaw tekniki ta’ indiċjar ibbażati fuq tipi ta’ data sempliċi, bħal kordi jew numri. Dawn it-tekniki ta 'indiċjar mhumiex adattati għal data tal-vettur, li għandha dimensjonalità għolja u teħtieġ tekniki ta' indiċjar speċjalizzati bħal indiċijiet invertiti jew siġar spazjali.
Ukoll, id-databases tradizzjonali mhumiex iddisinjati biex jimmaniġġjaw l-ammonti kbar ta 'dejta mhux strutturata jew semi-strutturata ta' spiss assoċjata ma 'vector embeds. Pereżempju, fajl ta 'immaġni jew awdjo jista' jkun fih miljuni ta 'punti ta' dejta, li databases tradizzjonali ma jistgħux jimmaniġġjaw b'mod effiċjenti.
Id-databases tal-vettur, min-naħa l-oħra, huma ddisinjati speċifikament biex jaħżnu u jirkupraw data tal-vettur u huma ottimizzati għal tfittxijiet ta 'xebh u operazzjonijiet kumplessi oħra fuq settijiet ta' data kbar. Huma jużaw tekniki speċjalizzati ta 'indiċjar u algoritmi ddisinjati biex jaħdmu b'dejta ta' dimensjoni għolja, li jagħmluhom ħafna aktar effiċjenti minn databases tradizzjonali għall-ħażna u l-irkupru ta 'vector embeds.
Issa li qrajt ħafna dwar il-vector databases, tista' tkun qed tistaqsi, kif jaħdmu? Ejja nagħtu ħarsa.
Ilkoll nafu kif jaħdmu d-databases relazzjonali: jaħżnu strings, numri, u tipi oħra ta’ data skalari f’ringieli u kolonni. Min-naħa l-oħra, database tal-vettur topera fuq vettori, għalhekk il-mod kif tiġi ottimizzata u mistoqsija hija pjuttost differenti.
F'databases tradizzjonali, aħna normalment nistaqsu għal ringieli fid-database fejn il-valur normalment jaqbel mal-mistoqsija tagħna eżattament. Fil-vector databases, aħna napplikaw metrika ta’ xebh biex insibu vettur li huwa l-aktar simili għall-mistoqsija tagħna.
Database ta' vettur juża taħlita ta' diversi algoritmi li kollha jipparteċipaw fit-tfittxija tal-eqreb ġar (ANN). Dawn l-algoritmi jottimizzaw it-tfittxija permezz ta' hashing, kwantizzazzjoni jew tfittxija bbażata fuq graff.
Dawn l-algoritmi huma mmuntati f'pipeline li jipprovdi rkupru mgħaġġel u preċiż tal-ġirien ta 'vettur mistoqsi. Peress li d-database tal-vettur tipprovdi riżultati approssimattivi, il-kompromessi ewlenin li nikkunsidraw huma bejn l-eżattezza u l-veloċità. Aktar ma jkun preċiż ir-riżultat, iktar tkun bil-mod il-mistoqsija. Madankollu, sistema tajba tista 'tipprovdi tiftix ultra-veloċi bi preċiżjoni kważi perfetta.
Id-databases tal-vettur huma għodda qawwija għal tfittxijiet ta’ xebh u operazzjonijiet kumplessi oħra fuq settijiet kbar ta’ data, li ma jistgħux jitwettqu b’mod effettiv bl-użu ta’ databases tradizzjonali. Biex tinbena database ta 'vettur funzjonali, l-inkorporazzjonijiet huma essenzjali, peress li jaqbdu t-tifsira semantika tad-dejta u jippermettu tfittxijiet preċiżi ta' xebh. B'differenza mill-libreriji tal-vector, il-vector databases huma ddisinjati biex jaqblu mal-każ tal-użu tagħna, u jagħmluhom ideali għal applikazzjonijiet fejn il-prestazzjoni u l-iskalabbiltà huma kritiċi. Biż-żieda tat-tagħlim tal-magni u l-intelliġenza artifiċjali, id-databases tal-vettur qed isiru dejjem aktar importanti għal firxa wiesgħa ta 'applikazzjonijiet inklużi sistemi ta' rakkomandazzjoni, tfittxija ta 'immaġni, xebh semantiku u l-lista tkompli. Hekk kif il-qasam ikompli jevolvi, nistgħu nistennew li naraw applikazzjonijiet saħansitra aktar innovattivi ta 'databases ta' vettur fil-futur.
Ercole Palmeri
Coveware minn Veeam se jkompli jipprovdi servizzi ta' rispons għal inċidenti ta' estorsjoni ċibernetika. Coveware se joffri forensiċi u kapaċitajiet ta' rimedju...
Il-manutenzjoni ta’ tbassir qed tirrivoluzzjona s-settur taż-żejt u l-gass, b’approċċ innovattiv u proattiv għall-ġestjoni tal-impjant...
Is-CMA tar-Renju Unit ħarġet twissija dwar l-imġieba ta 'Big Tech fis-suq tal-intelliġenza artifiċjali. Hemm…
Id-Digriet "Case Green", ifformulat mill-Unjoni Ewropea biex itejjeb l-effiċjenza enerġetika tal-bini, ikkonkluda l-proċess leġiżlattiv tiegħu bi...