Artikuj

Cilat janë bazat e të dhënave vektoriale, si funksionojnë dhe tregu i mundshëm

Një bazë të dhënash vektoriale është një lloj databaze që ruan të dhënat si vektorë me dimensione të larta, të cilët janë paraqitje matematikore të veçorive ose atributeve. 

Këta vektorë zakonisht krijohen duke aplikuar një lloj funksioni ngulitjeje në të dhëna të papërpunuara, të tilla si teksti, imazhet, audio, video dhe të tjera.

Bazat e të dhënave vektoriale mund të jenë definite si një mjet që indekson dhe ruan ngulitje vektoriale për rikthim të shpejtë dhe kërkim të ngjashmërisë, me veçori si filtrimi i meta të dhënave dhe shkallëzimi horizontal.

Koha e parashikuar e leximit: 9 minuti

Rritja e interesit të investitorëve

Javët e fundit, ka pasur një rritje të interesit të investitorëve për bazat e të dhënave vektoriale. Që nga fillimi i vitit 2023 kemi vërejtur se:

  • Fillimi i bazës së të dhënave vektoriale Endje Ai mori 50 milionë dollarë financim të Serisë B;
  • Kunj guri mblodhi 100 milionë dollarë në financimin e Serisë B me një vlerësim prej 750 milionë dollarësh;
  • Chroma , një projekt me burim të hapur, mblodhi 18 milionë dollarë për të dhënat e tij të ngulitura;

Le të shohim më në detaje se cilat janë bazat e të dhënave vektoriale.

Vektorët si paraqitje e të dhënave

Bazat e të dhënave vektoriale mbështeten shumë në përfshirjen e vektorit, një lloj përfaqësimi i të dhënave që mbart brenda tij informacionin semantik kritik për AI për të kuptuar dhe ruajtur memorien afatgjatë për t'u përdorur gjatë ekzekutimit të aktiviteteve komplekse. 

Vendosjet vektoriale

Vendosjet vektoriale janë si një hartë, por në vend që të na tregojnë se ku janë gjërat në botë, ato na tregojnë se ku janë gjërat në diçka që quhet hapësirë ​​vektoriale. Hapësira vektoriale është një lloj sheshi i madh lojrash ku çdo gjë ka vendin e vet për të luajtur. Imagjinoni që keni një grup kafshësh: një mace, një qen, një zog dhe një peshk. Ne mund të krijojmë një embed vektori për çdo imazh duke i dhënë një pozicion të veçantë në shesh lojërash. Macja mund të jetë në një cep, qeni në anën tjetër. Zogu mund të jetë në qiell dhe peshku mund të jetë në pellg. Ky vend është një hapësirë ​​shumëdimensionale. Çdo dimension korrespondon me aspekte të ndryshme të tyre, për shembull, peshqit kanë pendë, zogjtë kanë krahë, macet dhe qentë kanë këmbë. Një aspekt tjetër i tyre mund të jetë se peshqit i përkasin ujit, zogjtë kryesisht në qiell dhe macet dhe qentë në tokë. Pasi t'i kemi këta vektorë, mund të përdorim teknika matematikore për t'i grupuar në bazë të ngjashmërisë së tyre. Bazuar në informacionin që kemi,

Pra, futjet vektoriale janë si një hartë që na ndihmon të gjejmë ngjashmëri midis gjërave në hapësirën vektoriale. Ashtu si një hartë na ndihmon të lundrojmë në botë, futjet e vektorëve ndihmojnë në lundrimin në shesh lojërash vektoriale.

Ideja kryesore është që ngulitje që janë semantikisht të ngjashme me njëra-tjetrën kanë një distancë më të vogël ndërmjet tyre. Për të zbuluar se sa të ngjashëm janë ato, mund të përdorim funksionet e distancës vektoriale si distanca euklidiane, distanca kosinusore, etj.

Bazat e të dhënave vektoriale kundrejt bibliotekave vektoriale

Bibliotekat vektoriale ruani ngulitje të vektorëve në indekse në memorie, në mënyrë që të kryeni kërkime ngjashmërie. Bibliotekat vektoriale kanë karakteristikat/kufizimet e mëposhtme:

  1. Ruani vetëm vektorët : Bibliotekat vektoriale ruajnë vetëm përfshirjet e vektorëve dhe jo objektet shoqëruese nga të cilat janë krijuar. Kjo do të thotë që kur bëjmë pyetje, një bibliotekë vektoriale do të përgjigjet me vektorët përkatës dhe ID-të e objekteve. Kjo është kufizuese pasi informacioni aktual ruhet në objekt dhe jo në id. Për të zgjidhur këtë problem, ne duhet t'i ruajmë objektet në ruajtje dytësore. Më pas mund të përdorim ID-të e kthyera nga pyetësori dhe t'i përputhim ato me objekte për të kuptuar rezultatet.
  2. Të dhënat e indeksit janë të pandryshueshme : Indekset e prodhuara nga bibliotekat vektoriale janë të pandryshueshme. Kjo do të thotë që pasi të kemi importuar të dhënat tona dhe të kemi ndërtuar indeksin, nuk mund të bëjmë asnjë ndryshim (pa futje, fshirje ose ndryshime të reja). Për të bërë ndryshime në indeksin tonë, do të na duhet ta rindërtojmë atë nga e para
  3. Pyet duke kufizuar importin : Shumica e bibliotekave vektoriale nuk mund të kërkohen gjatë importimit të të dhënave. Fillimisht duhet të importojmë të gjitha objektet tona të të dhënave. Pra, indeksi krijohet pasi objektet janë importuar. Ky mund të jetë problem për aplikacionet që kërkojnë miliona apo edhe miliarda objekte për t'u importuar.

Ka shumë biblioteka të kërkimit vektor në dispozicion: FAISS e Facebook-ut, bezdis nga Spotify dhe ScanNN nga Google. FAISS përdor metodën e grupimit, Annoy përdor pemët dhe ScanNN përdor kompresimin vektorial. Ekziston një kompromis i performancës për secilin, të cilin ne mund ta zgjedhim bazuar në aplikimin tonë dhe metrikat e performancës.

CRUD

Tipari kryesor që dallon bazat e të dhënave vektoriale nga bibliotekat vektoriale është aftësia për të arkivuar, përditësuar dhe fshirë të dhënat. Bazat e të dhënave vektoriale kanë mbështetje CRUD i plotë (krijoni, lexoni, përditësoni dhe fshini) që zgjidh kufizimet e një biblioteke vektoriale.

  1. Vektorë dhe objekte arkivore : Bazat e të dhënave mund të ruajnë si objektet e të dhënave ashtu edhe vektorët. Meqenëse të dyja ruhen, ne mund të kombinojmë kërkimin vektorial me filtra të strukturuar. Filtrat na lejojnë të sigurohemi që fqinjët më të afërt të përputhen me filtrin e meta të dhënave.
  2. Ndryshueshmëria : pasi bazat e të dhënave vektoriale mbështesin plotësisht bruto, ne mund të shtojmë, heqim ose përditësojmë lehtësisht shënimet në indeksin tonë pasi të jetë krijuar. Kjo është veçanërisht e dobishme kur punoni me të dhëna që ndryshojnë vazhdimisht.
  3. Kërkim në kohë reale : Ndryshe nga bibliotekat vektoriale, bazat e të dhënave na lejojnë të kërkojmë dhe modifikojmë të dhënat tona gjatë procesit të importimit. Ndërsa ngarkojmë miliona objekte, të dhënat e importuara mbeten plotësisht të aksesueshme dhe funksionale, kështu që nuk duhet të prisni që importi të përfundojë për të filluar punën në atë që është tashmë atje.

Shkurtimisht, një bazë të dhënash vektoriale ofron një zgjidhje superiore për trajtimin e ngulitjeve të vektorëve duke adresuar kufizimet e indekseve vektoriale të pavarura siç u diskutua në pikat e mëparshme.

Por çfarë i bën bazat e të dhënave vektoriale superiore ndaj bazave të të dhënave tradicionale?

Bazat e të dhënave vektoriale kundrejt bazave të të dhënave tradicionale

Bazat e të dhënave tradicionale janë krijuar për të ruajtur dhe tërhequr të dhëna të strukturuara duke përdorur modele relacionale, që do të thotë se ato janë të optimizuara për pyetje të bazuara në kolona dhe rreshta të dhënash. Ndërsa është e mundur të ruhen ngulitje vektoriale në bazat e të dhënave tradicionale, këto baza të të dhënave nuk janë të optimizuara për operacione vektoriale dhe nuk mund të kryejnë kërkime të ngjashmërisë ose operacione të tjera komplekse në grupe të dhënash të mëdha në mënyrë efikase.

Kjo është për shkak se bazat e të dhënave tradicionale përdorin teknika indeksimi të bazuara në lloje të thjeshta të dhënash, të tilla si vargjet ose numrat. Këto teknika indeksimi nuk janë të përshtatshme për të dhënat vektoriale, të cilat kanë dimensionalitet të lartë dhe kërkojnë teknika të specializuara indeksimi si indekset e përmbysura ose pemët hapësinore.

Gjithashtu, bazat e të dhënave tradicionale nuk janë të dizajnuara për të trajtuar sasi të mëdha të të dhënave të pastrukturuara ose gjysmë të strukturuara që shpesh shoqërohen me ngulitje vektoriale. Për shembull, një skedar imazhi ose audio mund të përmbajë miliona pika të dhënash, të cilat bazat e të dhënave tradicionale nuk mund t'i trajtojnë në mënyrë efikase.

Bazat e të dhënave vektoriale, nga ana tjetër, janë krijuar posaçërisht për të ruajtur dhe tërhequr të dhëna vektoriale dhe janë të optimizuara për kërkime ngjashmërie dhe operacione të tjera komplekse në grupe të dhënash të mëdha. Ata përdorin teknika dhe algoritme të specializuara të indeksimit të dizajnuara për të punuar me të dhëna me dimensione të larta, duke i bërë ato shumë më efikase se bazat e të dhënave tradicionale për ruajtjen dhe rikthimin e nguliturave vektoriale.

Tani që keni lexuar kaq shumë për bazat e të dhënave vektoriale, mund të pyesni veten, si funksionojnë ato? Le t'i hedhim një sy.

Si funksionon një bazë të dhënash vektoriale?

Të gjithë e dimë se si funksionojnë bazat e të dhënave relacionale: ato ruajnë vargje, numra dhe lloje të tjera të të dhënave skalare në rreshta dhe kolona. Nga ana tjetër, një bazë të dhënash vektoriale funksionon në vektorë, kështu që mënyra se si optimizohet dhe pyetet është krejt e ndryshme.

Në bazat e të dhënave tradicionale, ne zakonisht kërkojmë për rreshta në bazën e të dhënave ku vlera zakonisht përputhet saktësisht me pyetjen tonë. Në bazat e të dhënave vektoriale, ne aplikojmë një metrikë ngjashmërie për të gjetur një vektor që është më i ngjashëm me pyetjen tonë.

Një bazë të dhënash vektoriale përdor një kombinim të disa algoritmeve që të gjithë marrin pjesë në kërkimin e fqinjit më të afërt (ANN). Këto algoritme optimizojnë kërkimin duke hash, kuantizim ose kërkim të bazuar në grafik.

Këto algoritme janë mbledhur në një tubacion që siguron rikthim të shpejtë dhe të saktë të fqinjëve të një vektori të pyetur. Meqenëse baza e të dhënave vektoriale ofron rezultate të përafërta, shkëmbimet kryesore që ne konsiderojmë janë midis saktësisë dhe shpejtësisë. Sa më i saktë të jetë rezultati, aq më i ngadalshëm do të jetë pyetja. Megjithatë, një sistem i mirë mund të sigurojë kërkime ultra të shpejtë me saktësi pothuajse të përsosur.

  • Indeksimi : Baza e të dhënave vektoriale indekson vektorët duke përdorur një algoritëm të tillë si PQ, LSH ose HNSW. Ky hap i lidh vektorët me një strukturë të dhënash e cila do të lejojë kërkimin më të shpejtë.
  • Pyetje : baza e të dhënave vektoriale krahason vektorin e pyetësorit të indeksuar me vektorët e indeksuar në grupin e të dhënave për të gjetur fqinjët më të afërt (duke aplikuar një metrikë ngjashmërie të përdorur nga ai indeks)
  • Pas përpunimit : Në disa raste, baza e të dhënave vektoriale merr fqinjët më të afërt përfundimtar nga grupi i të dhënave dhe i përpunon ato për të kthyer rezultatet përfundimtare. Ky hap mund të përfshijë riklasifikimin e fqinjëve më të afërt duke përdorur një masë të ndryshme ngjashmërie.

përfitimet

Bazat e të dhënave vektoriale janë një mjet i fuqishëm për kërkimet e ngjashmërisë dhe operacione të tjera komplekse në grupe të mëdha të dhënash, të cilat nuk mund të kryhen në mënyrë efektive duke përdorur bazat e të dhënave tradicionale. Për të ndërtuar një bazë të dhënash vektoriale funksionale, futjet janë thelbësore, pasi ato kapin kuptimin semantik të të dhënave dhe mundësojnë kërkime të sakta ngjashmërie. Ndryshe nga bibliotekat vektoriale, bazat e të dhënave vektoriale janë krijuar për t'iu përshtatur rastit tonë të përdorimit, duke i bërë ato ideale për aplikacionet ku performanca dhe shkallëzueshmëria janë kritike. Me rritjen e mësimit të makinerive dhe inteligjencës artificiale, bazat e të dhënave vektoriale po bëhen gjithnjë e më të rëndësishme për një gamë të gjerë aplikacionesh, duke përfshirë sistemet e rekomanduesve, kërkimin e imazheve, ngjashmërinë semantike dhe lista vazhdon. Ndërsa fusha vazhdon të evoluojë, ne mund të presim të shohim aplikime edhe më inovative të bazave të të dhënave vektoriale në të ardhmen.

Ercole Palmeri

Buletini i inovacionit
Mos humbisni lajmet më të rëndësishme mbi inovacionin. Regjistrohuni për t'i marrë ato me email.

Artikujt e fundit

Botuesit dhe OpenAI nënshkruajnë marrëveshje për të rregulluar rrjedhën e informacionit të përpunuar nga Inteligjenca Artificiale

Të hënën e kaluar, Financial Times njoftoi një marrëveshje me OpenAI. FT licencon gazetarinë e saj të klasit botëror…

30 Prill 2024

Pagesat në internet: Ja se si shërbimet e transmetimit ju bëjnë të paguani përgjithmonë

Miliona njerëz paguajnë për shërbimet e transmetimit, duke paguar tarifat mujore të abonimit. Është e zakonshme që ju…

29 Prill 2024

Veeam përmban mbështetjen më të plotë për ransomware, nga mbrojtja te përgjigja dhe rikuperimi

Coveware nga Veeam do të vazhdojë të ofrojë shërbime të reagimit ndaj incidenteve të zhvatjes kibernetike. Coveware do të ofrojë aftësi mjeko-ligjore dhe riparimi…

23 Prill 2024

Revolucioni i gjelbër dhe dixhital: Si mirëmbajtja parashikuese po transformon industrinë e naftës dhe gazit

Mirëmbajtja parashikuese po revolucionon sektorin e naftës dhe gazit, me një qasje inovative dhe proaktive për menaxhimin e impiantit.…

22 Prill 2024