Ùine leughaidh tuairmseach: 9 minuti
Anns na beagan sheachdainean a dh ’fhalbh, tha àrdachadh air a bhith ann an ùidh luchd-tasgaidh ann an stòran-dàta vector. Bho thoiseach 2023 tha sinn air mothachadh gu bheil:
Chì sinn nas mionaidiche dè na stòran-dàta vector.
Tha stòran-dàta vector gu mòr an urra ri freumhachadh vectar, seòrsa de riochdachadh dàta a tha a’ giùlan an fhiosrachaidh semantach a tha riatanach airson AI gus tuigse fhaighinn agus cuimhne fad-ùine a chumail airson tarraing air nuair a bhios iad a’ coileanadh ghnìomhan iom-fhillte.
Tha leapannan vector coltach ri mapa, ach an àite a bhith a’ sealltainn dhuinn far a bheil cùisean air an t-saoghal, bidh iad a’ sealltainn dhuinn far a bheil cùisean ann an rudeigin ris an canar àite vector. Tha àite vector na sheòrsa de raon-cluiche mòr far a bheil àite aig a h-uile dad airson cluich. Smaoinich gu bheil buidheann de bheathaichean agad: cat, cù, eun agus iasg. Is urrainn dhuinn neadachadh vectar a chruthachadh airson gach ìomhaigh le bhith a’ toirt suidheachadh sònraichte dha air an raon-cluiche. Faodaidh an cat a bhith ann an aon oisean, an cù air an taobh eile. Dh’ fhaodadh an t-eun a bhith anns an adhar agus dh’ fhaodadh an t-iasg a bhith anns an lòn. Tha an t-àite seo na àite ioma-thaobhach. Tha gach taobh a 'freagairt ri diofar thaobhan dhiubh, mar eisimpleir, tha sgiathan aig iasg, tha sgiathan aig eòin, tha casan aig cait is coin. Is dòcha gur e taobh eile dhiubh gur ann do uisge a tha iasg, eòin gu ìre mhòr dha na speuran, agus cait is coin chun na talmhainn. Aon uair ‘s gu bheil na vectaran sin againn, is urrainn dhuinn dòighean matamataigeach a chleachdadh gus an cruinneachadh stèidhichte air an coltas. Stèidhichte air an fhiosrachadh a tha againn,
Mar sin, tha in-ghabhail vectar coltach ri mapa a chuidicheas sinn gus rudan coltach ri chèile a lorg ann an àite vector. Dìreach mar a bhios mapa gar cuideachadh le bhith a’ seòladh an t-saoghail, bidh in-ghabhail vectaran a’ cuideachadh le bhith a’ seòladh raon-cluiche na vector.
Is e am prìomh bheachd gu bheil astar nas lugha eatorra aig in-ghabhail a tha coltach gu semantach ri chèile. Gus faighinn a-mach dè cho coltach ‘s a tha iad, is urrainn dhuinn gnìomhan astar feòir a chleachdadh leithid astar Euclidean, astar cosine, msaa.
Leabharlann vector stòradh vectaran ann an clàran-amais mar chuimhneachan, gus rannsachaidhean coltach a dhèanamh. Tha na feartan / crìochan a leanas aig leabharlannan vector:
Tha mòran leabharlannan sgrùdaidh vector rim faighinn: FAISS de Facebook, Annoy le Spotify agus ScanNN le Google. Bidh FAISS a’ cleachdadh modh cruinneachadh, bidh Annoy a’ cleachdadh chraobhan agus bidh ScanNN a’ cleachdadh teannachadh vectar. Tha malairt dèanadais ann airson gach fear, as urrainn dhuinn a thaghadh a rèir ar n-iarrtasan agus ar tomhasan coileanaidh.
Is e am prìomh fheart a tha ag eadar-dhealachadh stòran-dàta vector bho leabharlannan vector an comas dàta a thasgadh, ùrachadh agus a dhubhadh às. Tha taic CRUD aig stòran-dàta vector coileanta (cruthaich, leugh, ùraich agus cuir às) a dh’ fhuasglas crìochan leabharlann vector.
Ann an ùine ghoirid, tha stòr-dàta vector a’ toirt seachad fuasgladh nas fheàrr airson a bhith a’ làimhseachadh in-ghabhail vectar le bhith a’ dèiligeadh ri crìochan clàran-amais vector fèin-chumanta mar a chaidh a dheasbad anns na puingean roimhe seo.
Ach dè a tha a’ dèanamh stòran-dàta vector nas fheàrr na stòran-dàta traidiseanta?
Tha stòran-dàta traidiseanta air an dealbhadh gus dàta structaraichte a stòradh agus fhaighinn air ais a’ cleachdadh mhodalan co-cheangailte, a tha a’ ciallachadh gu bheil iad air an ùrachadh airson ceistean stèidhichte air colbhan agus sreathan dàta. Ged a tha e comasach freumhachadh vector a stòradh ann an stòran-dàta traidiseanta, chan eil na stòran-dàta sin air an ùrachadh airson gnìomhachd vectar agus chan urrainn dhaibh rannsachaidhean coltach ri chèile no gnìomhachd iom-fhillte eile a dhèanamh air stòran-dàta mòra gu h-èifeachdach.
Tha seo air sgàth gu bheil stòran-dàta traidiseanta a’ cleachdadh dòighean clàrachaidh stèidhichte air seòrsachan dàta sìmplidh, leithid sreangan no àireamhan. Chan eil na dòighean clàrachaidh sin freagarrach airson dàta vectar, aig a bheil meudachd àrd agus a dh’ fheumas dòighean clàrachaidh sònraichte leithid clàran-amais neo-dhìreach no craobhan spàsail.
Cuideachd, chan eil stòran-dàta traidiseanta air an dealbhadh gus an àireamh mhòr de dhàta neo-structaraichte no leth-structaraichte a tha gu tric co-cheangailte ri freumhachadh vectar a làimhseachadh. Mar eisimpleir, faodaidh milleanan de phuingean dàta a bhith ann an ìomhaigh no faidhle claisneachd, nach urrainn stòran-dàta traidiseanta a làimhseachadh gu h-èifeachdach.
Tha stòran-dàta vector, air an làimh eile, air an dealbhadh gu sònraichte gus dàta vectar a stòradh agus fhaighinn air ais agus tha iad air an ùrachadh airson rannsachaidhean coltach agus gnìomhachd iom-fhillte eile air stòran-dàta mòra. Bidh iad a’ cleachdadh dòighean clàrachaidh sònraichte agus algoirmean a tha air an dealbhadh gus obrachadh le dàta àrd-mheudach, gan dèanamh tòrr nas èifeachdaiche na stòran-dàta traidiseanta airson a bhith a’ stòradh agus a’ faighinn air ais leabaichean vectar.
A-nis gu bheil thu air uimhir a leughadh mu stòran-dàta vector, is dòcha gu bheil thu a’ faighneachd, ciamar a tha iad ag obair? Bheir sinn sùil.
Tha fios againn uile mar a bhios stòran-dàta dàimheach ag obair: bidh iad a’ stòradh sreangan, àireamhan, agus seòrsachan eile de dhàta sgalar ann an sreathan agus colbhan. Air an làimh eile, tha stòr-dàta vector ag obair air vectaran, agus mar sin tha an dòigh anns a bheil e air a mheudachadh agus air a cheasnachadh gu math eadar-dhealaichte.
Ann an stòran-dàta traidiseanta, mar as trice bidh sinn a’ faighneachd airson sreathan san stòr-dàta far a bheil an luach mar as trice a rèir ar ceist. Ann an stòran-dàta vector, bidh sinn a’ cleachdadh meatrach coltach ri bhith a’ lorg vectar a tha nas coltaiche ris a’ cheist againn.
Bidh stòr-dàta vector a’ cleachdadh measgachadh de ghrunn algoirmean a bhios uile a’ gabhail pàirt ann an sgrùdadh nàbaidh as fhaisge (ANN). Bidh na h-algorithms sin a’ dèanamh an fheum as fheàrr den sgrùdadh le bhith a’ hashing, a’ tomhas no a’ sgrùdadh stèidhichte air graf.
Tha na h-algorithms sin air an cruinneachadh ann an loidhne-phìoban a bheir seachad lorg luath is ceart air nàbaidhean vectar a chaidh a cheasnachadh. Leis gu bheil an stòr-dàta vector a’ toirt seachad toraidhean tuairmseach, tha na prìomh cho-dhùnaidhean malairt eadar cruinneas agus astar. Mar as mionaidiche an toradh, is ann as slaodaiche a bhios a’ cheist. Ach, faodaidh siostam math sgrùdadh ultra-luath a thoirt seachad le mionaideachd cha mhòr foirfe.
Tha stòran-dàta vector nan inneal cumhachdach airson rannsachaidhean coltach agus gnìomhachd iom-fhillte eile air seataichean dàta mòra, nach gabh a choileanadh gu h-èifeachdach a’ cleachdadh stòran-dàta traidiseanta. Gus stòr-dàta vectar gnìomh a thogail, tha in-ghabhail riatanach, leis gu bheil iad a’ glacadh brìgh semantach an dàta agus a’ comasachadh rannsachaidhean coltach ri chèile. Eu-coltach ri leabharlannan vector, tha stòran-dàta vector air an dealbhadh gus a bhith iomchaidh don chùis cleachdaidh againn, gan dèanamh air leth freagarrach airson tagraidhean far a bheil coileanadh agus scalability deatamach. Le àrdachadh ann an ionnsachadh innealan agus inntleachd fuadain, tha stòran-dàta vector a’ sìor fhàs cudromach airson raon farsaing de thagraidhean a’ toirt a-steach siostaman molaidh, sgrùdadh ìomhaighean, coltas semantach agus tha an liosta a’ dol air adhart. Mar a bhios an raon a’ sìor fhàs, faodaidh sinn a bhith an dùil gum faic sinn eadhon barrachd thagraidhean ùr-ghnàthach de stòran-dàta vector san àm ri teachd.
Ercole Palmeri
Diluain sa chaidh, dh’ ainmich an Financial Times aonta le OpenAI. Tha FT a’ ceadachadh a naidheachdas aig ìre cruinne…
Bidh milleanan de dhaoine a’ pàigheadh airson seirbheisean sruthadh, a’ pàigheadh cìsean ballrachd mìosail. Tha e na bheachd cumanta gu bheil thu…
Leanaidh Coveware le Veeam a’ toirt seachad seirbheisean freagairt tachartas saidhbear. Bidh Coveware a’ tabhann comasan forensics agus leigheas…
Tha cumail suas ro-innse ag atharrachadh roinn na h-ola & gas, le dòigh-obrach ùr-ghnàthach agus for-ghnìomhach a thaobh riaghladh planntrais.…