Eeldatav lugemisaeg: 9 minutit
Viimastel nädalatel on investorite huvi vektorandmebaaside vastu kasvanud. Alates 2023. aasta algusest oleme märganud, et:
Vaatame üksikasjalikumalt, mis on vektorandmebaasid.
Vektorandmebaasid toetuvad suurel määral vektormanustamisele – andmeesituse tüübile, mis kannab endas semantilist teavet, mis on tehisintellekti jaoks kriitilise tähtsusega, et mõista ja säilitada pikaajalist mälu, millele keerukate toimingute tegemisel tugineda.
Vektori manused on nagu kaart, kuid selle asemel, et näidata meile, kus asjad maailmas asuvad, näitavad nad meile, kus asjad asuvad milleski nn. vektorruum. Vektorruum on omamoodi suur mänguväljak, kus igal asjal on oma koht, kus mängida. Kujutage ette, et teil on rühm loomi: kass, koer, lind ja kala. Saame luua iga pildi jaoks vektormanuse, andes sellele mänguväljakul erilise positsiooni. Kass võib olla ühes nurgas, koer teisel pool. Lind võiks olla taevas ja kala võiks olla tiigis. See koht on mitmemõõtmeline ruum. Iga dimensioon vastab nende erinevatele aspektidele, näiteks kaladel on uimed, lindudel tiivad, kassil ja koertel jalad. Nende teine aspekt võib olla see, et kalad kuuluvad vette, linnud peamiselt taevasse ning kassid ja koerad maa alla. Kui meil on need vektorid olemas, saame kasutada matemaatilisi tehnikaid nende sarnasuse alusel rühmitamiseks. Meie käsutuses oleva teabe põhjal
Seega on vektormanused nagu kaart, mis aitab meil leida vektorruumi asjade sarnasust. Nii nagu kaart aitab meil maailmas navigeerida, aitavad vektormanused liikuda vektori mänguväljakul.
Põhiidee on see, et üksteisega semantiliselt sarnaste manustega on nende vahel väiksem vahemaa. Et teada saada, kui sarnased need on, saame kasutada vektorkauguse funktsioone, nagu Eukleidiline kaugus, koosinuskaugus jne.
Vektori raamatukogud sarnasuse otsingute tegemiseks salvestada vektorite põimimised mällu indeksitesse. Vektori raamatukogudel on järgmised omadused/piirangud:
Saadaval on palju vektorotsingu raamatukogusid: Facebooki FAISS, tüütu Spotify ja ScanNN Google'i poolt. FAISS kasutab klastrimeetodit, Annoy kasutab puid ja ScanNN kasutab vektorite tihendamist. Igaühel on jõudluse kompromiss, mille saame valida oma rakenduse ja jõudlusnäitajate põhjal.
Peamine omadus, mis eristab vektorandmebaase vektorteekidest, on andmete arhiveerimise, värskendamise ja kustutamise võimalus. Vektorandmebaasidel on CRUD tugi täielik (loo, lugemine, värskendamine ja kustutamine), mis lahendab vektorteegi piirangud.
Lühidalt öeldes pakub vektorandmebaas suurepärase lahenduse vektorite manustamiseks, käsitledes iseseisvate vektorindeksite piiranguid, nagu on kirjeldatud eelmistes punktides.
Kuid mis teeb vektorandmebaasidest paremad kui traditsioonilised andmebaasid?
Traditsioonilised andmebaasid on loodud struktureeritud andmete salvestamiseks ja toomiseks relatsioonimudelite abil, mis tähendab, et need on optimeeritud veergudel ja andmeridadel põhinevate päringute jaoks. Kuigi traditsioonilistes andmebaasides on võimalik salvestada vektormanustusi, ei ole need andmebaasid vektoroperatsioonide jaoks optimeeritud ega suuda tõhusalt teostada sarnasusotsinguid ega muid keerulisi toiminguid suurte andmekogumitega.
Seda seetõttu, et traditsioonilised andmebaasid kasutavad indekseerimistehnikaid, mis põhinevad lihtsatel andmetüüpidel, nagu stringid või numbrid. Need indekseerimismeetodid ei sobi vektorandmete jaoks, millel on suur mõõtmelisus ja mis nõuavad spetsiaalseid indekseerimistehnikaid, nagu pöördindeksid või ruumipuud.
Samuti ei ole traditsioonilised andmebaasid loodud suure hulga struktureerimata või poolstruktureeritud andmete haldamiseks, mida sageli seostatakse vektori manustega. Näiteks võib pilt või helifail sisaldada miljoneid andmepunkte, mida traditsioonilised andmebaasid ei suuda tõhusalt käsitleda.
Vektorandmebaasid on seevastu spetsiaalselt loodud vektorandmete salvestamiseks ja toomiseks ning optimeeritud sarnasuse otsimiseks ja muudeks keerulisteks operatsioonideks suurtes andmekogumites. Nad kasutavad spetsiaalseid indekseerimistehnikaid ja algoritme, mis on loodud töötama suuremõõtmeliste andmetega, muutes need vektormanuste salvestamiseks ja toomiseks palju tõhusamaks kui traditsioonilised andmebaasid.
Nüüd, kui olete vektorandmebaaside kohta nii palju lugenud, võite küsida, kuidas need töötavad? Heidame pilgu peale.
Me kõik teame, kuidas relatsiooniandmebaasid töötavad: nad salvestavad stringe, numbreid ja muud tüüpi skalaarandmeid ridadesse ja veergudesse. Teisest küljest töötab vektorandmebaas vektoritega, seega on selle optimeerimise ja päringute tegemise viis üsna erinev.
Traditsioonilistes andmebaasides küsime tavaliselt andmebaasi ridu, mille väärtus vastab tavaliselt meie päringule täpselt. Vektorandmebaasides rakendame meie päringuga kõige sarnasema vektori leidmiseks sarnasuse mõõdikut.
Vektorandmebaas kasutab mitme algoritmi kombinatsiooni, mis kõik osalevad lähima naabri otsingus (ANN). Need algoritmid optimeerivad otsingut räsimise, kvantimise või graafikupõhise otsingu abil.
Need algoritmid on kokku pandud konveieriks, mis tagab küsitava vektori naabrite kiire ja täpse otsingu. Kuna vektorandmebaas annab ligikaudseid tulemusi, on peamised kompromissid, mida me kaalume, täpsuse ja kiiruse vahel. Mida täpsem on tulemus, seda aeglasem on päring. Hea süsteem võib aga pakkuda ülikiiret otsimist peaaegu täiusliku täpsusega.
Vektorandmebaasid on võimas tööriist sarnasuste otsimiseks ja muudeks keerukateks toiminguteks suurte andmekogumitega, mida ei saa traditsiooniliste andmebaaside abil tõhusalt teostada. Funktsionaalse vektorandmebaasi koostamiseks on manustamine hädavajalik, kuna need tabavad andmete semantilise tähenduse ja võimaldavad täpset sarnasuse otsingut. Erinevalt vektorteekidest on vektorandmebaasid loodud meie kasutusjuhtumitele sobima, muutes need ideaalseks rakenduste jaoks, kus jõudlus ja mastaapsus on kriitilise tähtsusega. Seoses masinõppe ja tehisintellekti tõusuga muutuvad vektorandmebaasid üha olulisemaks paljude rakenduste jaoks, sealhulgas soovitussüsteemid, pildiotsing, semantiline sarnasus ja loetelu jätkub. Kuna valdkond areneb edasi, võime tulevikus oodata veelgi uuenduslikumaid vektorandmebaaside rakendusi.
Ercole Palmeri
Catania polikliinikus viidi läbi oftalmoplastika operatsioon Apple Vision Pro reklaamivaaturiga…
Peenmotoorika arendamine värvimise kaudu valmistab lapsi ette keerukamate oskuste, nagu kirjutamise, jaoks. Värvimiseks…
Meresõidusektor on tõeline ülemaailmne majanduslik jõud, mis on liikunud 150 miljardi suuruse turu poole...
Eelmisel esmaspäeval teatas Financial Times tehingust OpenAI-ga. FT litsentsib oma maailmatasemel ajakirjandust…