Erthyglau

Beth yw cronfeydd data fector, sut maen nhw'n gweithio a marchnad bosibl

Mae cronfa ddata fectorau yn fath o gronfa ddata sy'n storio data fel fectorau dimensiwn uchel, sy'n gynrychioliadau mathemategol o nodweddion neu briodoleddau. 

Mae'r fectorau hyn fel arfer yn cael eu cynhyrchu trwy gymhwyso rhyw fath o swyddogaeth ymgorffori i ddata crai, megis testun, delweddau, sain, fideo, ac eraill.

Gall cronfeydd data fector fod definite fel offeryn sy'n mynegeio ac yn storio mewnosod fector ar gyfer adalw cyflym a chwilio tebygrwydd, gyda nodweddion fel hidlo metadata a graddio llorweddol.

Amser darllen amcangyfrifedig: 9 minuti

Cynyddu Diddordeb Buddsoddwyr

Yn ystod yr wythnosau diwethaf, bu cynnydd mewn diddordeb buddsoddwyr mewn cronfeydd data fector. Ers dechrau 2023 rydym wedi sylwi bod:

  • cychwyn cronfa ddata fector Gwanu Cafodd $50 miliwn mewn cyllid Cyfres B;
  • Pinecon codi $100 miliwn mewn cyllid Cyfres B ar brisiad o $750 miliwn;
  • Chroma , prosiect ffynhonnell agored, wedi codi $18 miliwn ar gyfer ei gronfa ddata ymgorffori;

Gadewch i ni weld yn fanylach beth yw cronfeydd data fector.

Fectorau fel cynrychiolaeth data

Mae cronfeydd data fector yn dibynnu'n helaeth ar fewnosod fector, math o gynrychioliad data sy'n cynnwys y wybodaeth semantig sy'n hanfodol er mwyn i AI ennill dealltwriaeth a chynnal cof hirdymor i'w ddefnyddio wrth gyflawni gweithgareddau cymhleth. 

Gwreiddio fector

Mae mewnosodiadau fector fel map, ond yn lle dangos i ni ble mae pethau yn y byd, maen nhw'n dangos i ni ble mae pethau mewn rhywbeth o'r enw gofod fector. Mae gofod fector yn fath o faes chwarae mawr lle mae gan bopeth ei le i chwarae. Dychmygwch fod gennych chi grŵp o anifeiliaid: cath, ci, aderyn a physgodyn. Gallwn greu mewnosod fector ar gyfer pob delwedd trwy roi safle arbennig iddo ar y maes chwarae. Gall y gath fod mewn un gornel, y ci ar yr ochr arall. Gallai'r aderyn fod yn yr awyr a gallai'r pysgod fod yn y pwll. Mae'r lle hwn yn ofod aml-ddimensiwn. Mae pob dimensiwn yn cyfateb i wahanol agweddau ohonynt, er enghraifft, mae gan bysgod esgyll, mae gan adar adenydd, mae gan gathod a chŵn goesau. Efallai mai agwedd arall arnyn nhw yw bod pysgod yn perthyn i ddŵr, adar yn bennaf i'r awyr, a chathod a chwn i'r llawr. Unwaith y bydd gennym y fectorau hyn, gallwn ddefnyddio technegau mathemategol i'w grwpio yn seiliedig ar eu tebygrwydd. Yn seiliedig ar y wybodaeth sydd gennym,

Felly, mae mewnosodiadau fector fel map sy'n ein helpu i ddod o hyd i debygrwydd rhwng pethau mewn gofod fector. Yn union fel y mae map yn ein helpu i lywio'r byd, mae mewnosodiadau fector yn helpu i lywio'r maes chwarae fector.

Y syniad allweddol yw bod gan fewnosodiadau sy'n debyg yn semantig i'w gilydd bellter llai rhyngddynt. I ddarganfod pa mor debyg ydyn nhw, gallwn ddefnyddio swyddogaethau pellter fector fel pellter Ewclidaidd, pellter cosin, ac ati.

Cronfeydd Data Fector vs Llyfrgelloedd Fector

Y llyfrgelloedd fector storio mewnosodiadau fectorau mewn mynegeion yn y cof, er mwyn cyflawni chwiliadau tebygrwydd. Mae gan lyfrgelloedd fector y nodweddion/cyfyngiadau canlynol:

  1. Storio fectorau yn unig : Mae llyfrgelloedd fector yn storio mewnosodiadau fectorau yn unig ac nid y gwrthrychau cysylltiedig y cawsant eu cynhyrchu ohonynt. Mae hyn yn golygu pan fyddwn yn ymholi, bydd llyfrgell fectorau yn ymateb gyda'r fectorau a'r IDau gwrthrych perthnasol. Mae hyn yn gyfyngedig gan fod y wybodaeth wirioneddol yn cael ei storio yn y gwrthrych ac nid yr id. I ddatrys y broblem hon, dylem storio'r gwrthrychau mewn storfa eilaidd. Yna gallwn ddefnyddio'r IDau a ddychwelwyd gan yr ymholiad a'u paru â gwrthrychau i ddeall y canlyniadau.
  2. Mae data mynegai yn ddigyfnewid : Mae mynegeion a gynhyrchir gan lyfrgelloedd fector yn ddigyfnewid. Mae hyn yn golygu, ar ôl i ni fewnforio ein data ac adeiladu'r mynegai, ni allwn wneud unrhyw newidiadau (dim mewnosodiadau newydd, dileadau neu newidiadau). Er mwyn gwneud newidiadau i'n mynegai, bydd yn rhaid i ni ei ailadeiladu o'r dechrau
  3. Ymholiad wrth gyfyngu ar fewnforio : Ni ellir cwestiynu'r rhan fwyaf o lyfrgelloedd fector wrth fewnforio data. Mae angen i ni fewnforio ein holl wrthrychau data yn gyntaf. Felly mae'r mynegai yn cael ei greu ar ôl i'r gwrthrychau gael eu mewnforio. Gall hyn fod yn broblem ar gyfer ceisiadau sy'n gofyn am filiynau neu hyd yn oed biliynau o wrthrychau i gael eu mewnforio.

Mae yna lawer o lyfrgelloedd chwilio fector ar gael: FAISS o Facebook, Annoy gan Spotify a ScanNN gan Google. Mae FAISS yn defnyddio dull clystyru, mae Annoy yn defnyddio coed ac mae ScanNN yn defnyddio cywasgu fector. Mae yna gyfaddawd perfformiad ar gyfer pob un, y gallwn ei ddewis yn seiliedig ar ein cais a metrigau perfformiad.

CRUD

Y brif nodwedd sy'n gwahaniaethu cronfeydd data fector o lyfrgelloedd fector yw'r gallu i archifo, diweddaru a dileu data. Mae gan gronfeydd data fector gefnogaeth CRUD cwblhau (creu, darllen, diweddaru a dileu) sy'n datrys cyfyngiadau llyfrgell fector.

  1. Archif fectorau a gwrthrychau : Gall cronfeydd data storio gwrthrychau data a fectorau. Gan fod y ddau yn cael eu storio, gallwn gyfuno chwiliad fector gyda hidlwyr strwythuredig. Mae hidlwyr yn ein galluogi i wneud yn siŵr bod y cymdogion agosaf yn cyd-fynd â'r hidlydd metadata.
  2. Mutability : fel cronfeydd data fector yn cefnogi'n llawn crai, gallwn yn hawdd ychwanegu, dileu neu ddiweddaru cofnodion yn ein mynegai ar ôl iddo gael ei greu. Mae hyn yn arbennig o ddefnyddiol wrth weithio gyda data sy'n newid yn gyson.
  3. Chwilio amser real : Yn wahanol i lyfrgelloedd fector, mae cronfeydd data yn ein galluogi i ymholi ac addasu ein data yn ystod y broses fewnforio. Wrth i ni lwytho miliynau o wrthrychau, mae'r data a fewnforiwyd yn parhau i fod yn gwbl hygyrch ac yn weithredol, felly nid oes rhaid i chi aros i'r mewnforio gwblhau i ddechrau gweithio ar yr hyn sydd yno eisoes.

Yn fyr, mae cronfa ddata fector yn darparu datrysiad gwell ar gyfer trin mewnosodiadau fector trwy fynd i'r afael â chyfyngiadau mynegeion fector hunangynhwysol fel y trafodwyd yn y pwyntiau blaenorol.

Ond beth sy'n gwneud cronfeydd data fector yn well na chronfeydd data traddodiadol?

Cronfeydd data fector yn erbyn cronfeydd data traddodiadol

Mae cronfeydd data traddodiadol wedi'u cynllunio i storio ac adalw data strwythuredig gan ddefnyddio modelau perthynol, sy'n golygu eu bod wedi'u hoptimeiddio ar gyfer ymholiadau yn seiliedig ar golofnau a rhesi o ddata. Er ei bod yn bosibl storio mewnosodiadau fector mewn cronfeydd data traddodiadol, nid yw'r cronfeydd data hyn wedi'u hoptimeiddio ar gyfer gweithrediadau fector ac ni allant berfformio chwiliadau tebygrwydd neu weithrediadau cymhleth eraill ar setiau data mawr yn effeithlon.

Mae hyn oherwydd bod cronfeydd data traddodiadol yn defnyddio technegau mynegeio yn seiliedig ar fathau syml o ddata, megis llinynnau neu rifau. Nid yw'r technegau mynegeio hyn yn addas ar gyfer data fector, sydd â dimensiwn uchel ac sy'n gofyn am dechnegau mynegeio arbenigol megis mynegeion gwrthdro neu goed gofodol.

Hefyd, nid yw cronfeydd data traddodiadol wedi'u cynllunio i drin y symiau mawr o ddata anstrwythuredig neu led-strwythuredig sy'n aml yn gysylltiedig â mewnosodiadau fector. Er enghraifft, gall delwedd neu ffeil sain gynnwys miliynau o bwyntiau data, na all cronfeydd data traddodiadol eu trin yn effeithlon.

Mae cronfeydd data fector, ar y llaw arall, wedi'u cynllunio'n benodol i storio ac adalw data fector ac maent wedi'u hoptimeiddio ar gyfer chwiliadau tebygrwydd a gweithrediadau cymhleth eraill ar setiau data mawr. Maent yn defnyddio technegau mynegeio arbenigol ac algorithmau a gynlluniwyd i weithio gyda data dimensiwn uchel, gan eu gwneud yn llawer mwy effeithlon na chronfeydd data traddodiadol ar gyfer storio ac adalw mewnosodiadau fector.

Nawr eich bod chi wedi darllen cymaint am gronfeydd data fector, efallai eich bod chi'n pendroni, sut maen nhw'n gweithio? Gadewch i ni edrych.

Sut mae cronfa ddata fector yn gweithio?

Gwyddom i gyd sut mae cronfeydd data perthynol yn gweithio: maent yn storio llinynnau, rhifau, a mathau eraill o ddata sgalar mewn rhesi a cholofnau. Ar y llaw arall, mae cronfa ddata fector yn gweithredu ar fectorau, felly mae'r ffordd y caiff ei optimeiddio a'i holi yn dra gwahanol.

Mewn cronfeydd data traddodiadol, rydym fel arfer yn ymholi am resi yn y gronfa ddata lle mae'r gwerth fel arfer yn cyfateb yn union i'n hymholiad. Mewn cronfeydd data fector, rydym yn defnyddio metrig tebygrwydd i ddod o hyd i fector sydd debycaf i'n hymholiad.

Mae cronfa ddata fector yn defnyddio cyfuniad o nifer o algorithmau sydd i gyd yn cymryd rhan mewn chwiliad cymdogion agosaf (ANN). Mae'r algorithmau hyn yn gwneud y gorau o chwilio trwy stwnsio, meintioli, neu chwilio ar sail graff.

Mae'r algorithmau hyn yn cael eu cydosod i mewn i biblinell sy'n darparu adalw cyflym a chywir o gymdogion fector a holwyd. Gan fod y gronfa ddata fector yn darparu canlyniadau bras, y prif gyfaddawdau rydyn ni'n eu hystyried yw rhwng cywirdeb a chyflymder. Po fwyaf manwl gywir yw'r canlyniad, yr arafaf fydd yr ymholiad. Fodd bynnag, gall system dda ddarparu chwiliad cyflym iawn gyda chywirdeb bron yn berffaith.

  • Mynegeio : Mae'r gronfa ddata fector yn mynegeio fectorau gan ddefnyddio algorithm fel PQ, LSH neu HNSW. Mae'r cam hwn yn cysylltu'r fectorau â strwythur data a fydd yn caniatáu chwilio cyflymach.
  • ymholiad : cronfa ddata fector yn cymharu fector ymholiad mynegeiedig yn erbyn fectorau wedi'u mynegeio yn y set ddata i ddod o hyd i'r cymdogion agosaf (gan gymhwyso metrig tebygrwydd a ddefnyddir gan y mynegai hwnnw)
  • Ôl-brosesu : Mewn rhai achosion, mae'r gronfa ddata fector yn nôl y cymdogion agosaf olaf o'r set ddata ac yn eu prosesu ar ôl i ddychwelyd y canlyniadau terfynol. Gall y cam hwn gynnwys ailddosbarthu'r cymdogion agosaf gan ddefnyddio mesur tebygrwydd gwahanol.

manteision

Mae cronfeydd data fector yn arf pwerus ar gyfer chwiliadau tebygrwydd a gweithrediadau cymhleth eraill ar setiau data mawr, na ellir eu perfformio'n effeithiol gan ddefnyddio cronfeydd data traddodiadol. Er mwyn adeiladu cronfa ddata fector swyddogaethol, mae mewnosod yn hanfodol, gan eu bod yn dal ystyr semantig y data ac yn galluogi chwiliadau tebygrwydd cywir. Yn wahanol i lyfrgelloedd fector, mae cronfeydd data fector wedi'u cynllunio i gyd-fynd â'n hachos defnydd, gan eu gwneud yn ddelfrydol ar gyfer cymwysiadau lle mae perfformiad a graddadwyedd yn hanfodol. Gyda'r cynnydd mewn dysgu peiriannau a deallusrwydd artiffisial, mae cronfeydd data fector yn dod yn fwyfwy pwysig ar gyfer ystod eang o gymwysiadau gan gynnwys systemau argymell, chwilio delweddau, tebygrwydd semantig ac mae'r rhestr yn mynd ymlaen. Wrth i'r maes barhau i esblygu, gallwn ddisgwyl gweld hyd yn oed mwy o geisiadau arloesol o gronfeydd data fector yn y dyfodol.

Ercole Palmeri

Cylchlythyr arloesi
Peidiwch â cholli'r newyddion pwysicaf am arloesi. Cofrestrwch i'w derbyn trwy e-bost.

Erthyglau Diweddar

Ymyrraeth arloesol mewn Realiti Estynedig, gyda gwyliwr Apple yn y Catania Polyclinic

Perfformiwyd gweithrediad offthalmoplasti gan ddefnyddio gwyliwr masnachol Apple Vision Pro yn y Catania Polyclinic…

3 Mai 2024

Manteision Tudalennau Lliwio i Blant - byd o hud a lledrith i bob oed

Mae datblygu sgiliau echddygol manwl trwy liwio yn paratoi plant ar gyfer sgiliau mwy cymhleth fel ysgrifennu. I liwio…

2 Mai 2024

Mae'r Dyfodol Yma: Sut Mae'r Diwydiant Llongau yn Chwyldro'r Economi Fyd-eang

Mae'r sector llyngesol yn bŵer economaidd byd-eang gwirioneddol, sydd wedi llywio tuag at farchnad 150 biliwn...

1 Mai 2024

Mae cyhoeddwyr ac OpenAI yn llofnodi cytundebau i reoleiddio'r llif gwybodaeth a brosesir gan Ddeallusrwydd Artiffisial

Ddydd Llun diwethaf, cyhoeddodd y Financial Times gytundeb ag OpenAI. Mae FT yn trwyddedu ei newyddiaduraeth o safon fyd-eang…

30 2024 Ebrill