Članci

Što su vektorske baze podataka, kako rade i potencijalno tržište

Vektorska baza podataka vrsta je baze podataka koja pohranjuje podatke kao visokodimenzionalne vektore, koji su matematički prikazi značajki ili atributa.

Ti se vektori obično generiraju primjenom neke vrste funkcije ugrađivanja na neobrađene podatke, poput teksta, slika, zvuka, videa i drugih.

Vektorske baze podataka mogu biti definite kao alat koji indeksira i pohranjuje vektorske ugrađene za brzo dohvaćanje i pretraživanje sličnosti, sa značajkama kao što su filtriranje metapodataka i horizontalno skaliranje.

Sadržaj

Procijenjeno vrijeme čitanja: 9 minuti

Rastući interes investitora

Posljednjih tjedana bilježi se porast interesa investitora za vektorske baze podataka. Od početka 2023. primijetili smo da:

pokretanje vektorske baze podataka Tkati Dobio je 50 milijuna dolara u financiranju serije B;
Šišarka prikupio 100 milijuna dolara u financiranju serije B uz procjenu od 750 milijuna dolara;
Chroma , projekt otvorenog koda, prikupio je 18 milijuna dolara za svoju bazu podataka za ugrađivanje;

Pogledajmo detaljnije što su vektorske baze podataka.

Vektori kao prikaz podataka

Vektorske baze podataka uvelike se oslanjaju na vektorsko ugrađivanje, vrstu reprezentacije podataka koja u sebi nosi semantičke informacije ključne za AI kako bi stekao razumijevanje i zadržao dugoročnu memoriju na koju se može osloniti prilikom izvršavanja složenih aktivnosti.

Vektorski ugrađeni

Vektorski umetci su poput karte, ali umjesto da nam pokazuju gdje su stvari u svijetu, pokazuju nam gdje su stvari u nečemu što se zove vektorski prostor. Vector space je veliko igralište gdje sve ima svoje mjesto za igru. Zamislite da imate skupinu životinja: mačku, psa, pticu i ribu. Možemo izraditi vektorski umetak za svaku sliku dajući joj poseban položaj na igralištu. Mačka može biti u jednom uglu, pas na drugoj strani. Ptica bi mogla biti na nebu, a riba u ribnjaku. Ovo mjesto je višedimenzionalni prostor. Svaka dimenzija odgovara njihovim različitim aspektima, na primjer, ribe imaju peraje, ptice imaju krila, mačke i psi imaju noge. Drugi njihov aspekt može biti da ribe pripadaju vodi, ptice uglavnom nebu, a mačke i psi zemlji. Kada imamo te vektore, možemo koristiti matematičke tehnike da ih grupiramo na temelju njihove sličnosti. Na temelju informacija koje posjedujemo,

Dakle, vektorska ugrađivanja su poput karte koja nam pomaže pronaći sličnosti između stvari u vektorskom prostoru. Baš kao što nam karta pomaže u kretanju svijetom, vektorski umetci pomažu u kretanju vektorskim igralištem.

Ključna je ideja da ugrađeni elementi koji su međusobno semantički slični imaju manji razmak između sebe. Kako bismo saznali koliko su slični, možemo koristiti vektorske funkcije udaljenosti kao što su Euklidska udaljenost, kosinusna udaljenost itd.

Vektorske baze podataka vs vektorske knjižnice

Vektorske biblioteke pohraniti ugradnje vektora u indekse u memoriju, kako bi se izvršila pretraga sličnosti. Vektorske biblioteke imaju sljedeće karakteristike/ograničenja:

Pohranjujte samo vektore : Knjižnice vektora pohranjuju samo ugradnje vektora, a ne pridružene objekte iz kojih su generirani. To znači da kada postavimo upit, vektorska biblioteka će odgovoriti relevantnim vektorima i ID-ovima objekata. Ovo je ograničavajuće jer se stvarne informacije pohranjuju u objektu, a ne u ID-u. Da bismo riješili ovaj problem, trebali bismo pohraniti objekte u sekundarnu pohranu. Zatim možemo upotrijebiti ID-ove koje vraća upit i povezati ih s objektima kako bismo razumjeli rezultate.
Indeksni podaci su nepromjenjivi : Indeksi koje proizvode vektorske biblioteke su nepromjenjivi. To znači da nakon što smo uvezli svoje podatke i izgradili indeks, ne možemo napraviti nikakve promjene (bez novih umetanja, brisanja ili promjena). Da bismo unijeli promjene u naš indeks, morat ćemo ga ponovno izgraditi ispočetka
Upit dok ograničava uvoz : Većina knjižnica vektora ne može se ispitivati tijekom uvoza podataka. Prvo moramo uvesti sve naše podatkovne objekte. Dakle, indeks se stvara nakon uvoza objekata. To može predstavljati problem za aplikacije koje zahtijevaju uvoz milijuna ili čak milijardi objekata.

Dostupne su mnoge knjižnice za pretraživanje vektora: FAISS s Facebooka, gnjaviti od Spotifyja i ScanNN od Googlea. FAISS koristi metodu klasteriranja, Annoy koristi stabla, a ScanNN koristi vektorsku kompresiju. Za svaki postoji kompromis između performansi, koji možemo izabrati na temelju naše aplikacije i metrike performansi.

CRUD

Glavna značajka koja razlikuje vektorske baze podataka od vektorskih knjižnica je mogućnost arhiviranja, ažuriranja i brisanja podataka. Vektorske baze podataka imaju CRUD podršku potpun (stvaranje, čitanje, ažuriranje i brisanje) koji rješava ograničenja vektorske biblioteke.

Arhivski vektori i objekti : Baze podataka mogu pohranjivati i podatkovne objekte i vektore. Budući da su oba pohranjena, možemo kombinirati vektorsko pretraživanje sa strukturiranim filtrima. Filtri nam omogućuju da se uvjerimo da najbliži susjedi odgovaraju filtru metapodataka.
Promjenjivost : kao vektorske baze podataka u potpunosti podržavaju crud, možemo jednostavno dodati, ukloniti ili ažurirati unose u našem indeksu nakon što je kreiran. Ovo je posebno korisno kada radite s podacima koji se stalno mijenjaju.
Pretraživanje u stvarnom vremenu : Za razliku od vektorskih knjižnica, baze podataka omogućuju nam postavljanje upita i izmjenu naših podataka tijekom procesa uvoza. Dok učitavamo milijune objekata, uvezeni podaci ostaju u potpunosti dostupni i operativni, tako da ne morate čekati da se uvoz dovrši da biste počeli raditi na onome što je već tamo.

Ukratko, vektorska baza podataka pruža vrhunsko rješenje za rukovanje vektorskim ugrađenim pristupom rješavanju ograničenja samostalnih vektorskih indeksa kao što je objašnjeno u prethodnim točkama.

Ali što vektorske baze podataka čini superiornijima od tradicionalnih baza podataka?

Vektorske baze podataka vs tradicionalne baze podataka

Tradicionalne baze podataka dizajnirane su za pohranjivanje i dohvaćanje strukturiranih podataka pomoću relacijskih modela, što znači da su optimizirane za upite temeljene na stupcima i redovima podataka. Iako je moguće pohraniti vektorske umetke u tradicionalne baze podataka, te baze podataka nisu optimizirane za vektorske operacije i ne mogu učinkovito izvoditi pretraživanja sličnosti ili druge složene operacije na velikim skupovima podataka.

To je zato što tradicionalne baze podataka koriste tehnike indeksiranja temeljene na jednostavnim tipovima podataka, kao što su nizovi ili brojevi. Ove tehnike indeksiranja nisu prikladne za vektorske podatke, koji imaju veliku dimenzionalnost i zahtijevaju specijalizirane tehnike indeksiranja kao što su obrnuti indeksi ili prostorna stabla.

Također, tradicionalne baze podataka nisu dizajnirane za rukovanje velikim količinama nestrukturiranih ili polustrukturiranih podataka koji su često povezani s ugrađivanjem vektora. Na primjer, slika ili audio datoteka mogu sadržavati milijune podatkovnih točaka, s kojima tradicionalne baze podataka ne mogu učinkovito rukovati.

Vektorske baze podataka, s druge strane, posebno su dizajnirane za pohranjivanje i dohvaćanje vektorskih podataka i optimizirane su za pretraživanje sličnosti i druge složene operacije na velikim skupovima podataka. Koriste specijalizirane tehnike indeksiranja i algoritme dizajnirane za rad s visokodimenzionalnim podacima, što ih čini mnogo učinkovitijima od tradicionalnih baza podataka za pohranjivanje i dohvaćanje vektorskih ugrađenih podataka.

Sad kad ste toliko pročitali o vektorskim bazama podataka, možda se pitate kako rade? Pogledajmo.

Kako radi vektorska baza podataka?

Svi znamo kako rade relacijske baze podataka: one pohranjuju nizove, brojeve i druge vrste skalarnih podataka u retke i stupce. S druge strane, vektorska baza podataka radi na vektorima, pa je način na koji se optimizira i postavlja upite sasvim drugačiji.

U tradicionalnim bazama podataka obično tražimo retke u bazi podataka gdje vrijednost obično točno odgovara našem upitu. U vektorskim bazama podataka primjenjujemo metriku sličnosti kako bismo pronašli vektor koji je najsličniji našem upitu.

Vektorska baza podataka koristi kombinaciju nekoliko algoritama koji svi sudjeluju u pretraživanju najbližeg susjeda (ANN). Ovi algoritmi optimiziraju pretraživanje raspršivanjem, kvantizacijom ili pretraživanjem na temelju grafikona.

Ovi algoritmi sastavljeni su u cjevovod koji omogućuje brzo i točno dohvaćanje susjeda upitanog vektora. Budući da vektorska baza podataka daje približne rezultate, glavni kompromisi koje razmatramo su između točnosti i brzine. Što je rezultat precizniji, to će upit biti sporiji. Međutim, dobar sustav može pružiti ultrabrzo pretraživanje s gotovo savršenom točnošću.

Indeksiranje : Vektorska baza podataka indeksira vektore koristeći algoritam kao što je PQ, LSH ili HNSW. Ovaj korak pridružuje vektore strukturi podataka što će omogućiti brže pretraživanje.
Pitanje : vektorska baza podataka uspoređuje indeksirani vektor upita s indeksiranim vektorima u skupu podataka kako bi pronašao najbliže susjede (primjenjujući metriku sličnosti koju koristi taj indeks)
Naknadna obrada : U nekim slučajevima vektorska baza podataka dohvaća konačne najbliže susjede iz skupa podataka i naknadno ih obrađuje kako bi vratila konačne rezultate. Ovaj korak može uključivati ponovnu klasifikaciju najbližih susjeda korištenjem različite mjere sličnosti.

prednosti

Vektorske baze podataka moćan su alat za pretraživanje sličnosti i druge složene operacije na velikim skupovima podataka, koje se ne mogu učinkovito izvesti korištenjem tradicionalnih baza podataka. Za izgradnju funkcionalne vektorske baze podataka, ugradnje su ključne jer hvataju semantičko značenje podataka i omogućuju točna pretraživanja sličnosti. Za razliku od vektorskih biblioteka, vektorske baze podataka dizajnirane su tako da odgovaraju našem slučaju korištenja, što ih čini idealnim za aplikacije u kojima su izvedba i skalabilnost kritični. S porastom strojnog učenja i umjetne inteligencije, vektorske baze podataka postaju sve važnije za širok raspon aplikacija uključujući sustave preporuka, pretraživanje slika, semantičku sličnost i popis se nastavlja. Kako se polje nastavlja razvijati, možemo očekivati još inovativnije primjene vektorskih baza podataka u budućnosti.

Ercole Palmeri