グッズ

ベクターデータベースとは何か、その仕組みと潜在的な市場

ベクトルデータベースは、データを特徴や属性の数学的表現である高次元ベクトルとして保存するデータベースの一種です。

これらのベクトルは通常、テキスト、画像、オーディオ、ビデオなどの生データに何らかの埋め込み関数を適用することによって生成されます。

ベクターデータベースは次のことができます。 definite は、メタデータフィルタリングや水平スケーリングなどの機能を備え、素早い検索と類似性検索のためにベクトル埋め込みにインデックスを付けて保存するツールです。

推定読書時間: 9 分

高まる投資家の関心

ここ数週間、ベクトルデータベースに対する投資家の関心が高まっています。 2023 年の初め以来、私たちは次のことに気づきました。

ベクトルデータベースの起動弱める得シリーズBで50万ドルの資金調達;
松毬シリーズB資金調達で100億750万ドルの評価額でXNUMX億ドルを調達。
クロマはオープンソースプロジェクトで、埋め込みデータベースのために 18 万ドルを調達しました。

ベクトルデータベースとは何かをさらに詳しく見てみましょう。

データ表現としてのベクトル

ベクターデータベースは、AI が理解を獲得し、複雑なアクティビティを実行するときに利用する長期記憶を維持するために重要な意味情報を内部に持つデータ表現の一種であるベクター埋め込みに大きく依存しています。

ベクトルの埋め込み

ベクター埋め込みは地図のようなものですが、世界のどこにあるのかを示すのではなく、いわゆる何かの中でどこにあるのかを示します。 ベクトル空間。 ベクター空間は、あらゆるものが遊べる場所がある大きな遊び場のようなものです。猫、犬、鳥、魚などの動物のグループがいると想像してください。プレイグラウンド上の特別な位置を画像ごとに指定することで、画像ごとにベクトル埋め込みを作成できます。猫は隅っこにいて、犬は反対側にいるかもしれません。鳥は空にいるかもしれないし、魚は池にいるかもしれない。ここは多次元空間です。各次元は、魚のさまざまな側面に対応しています。たとえば、魚にはひれがあり、鳥には翼があり、猫や犬には足があります。それらのもう一つの側面は、魚は水に属し、鳥は主に空に属し、猫や犬は地面に属するということかもしれません。これらのベクトルを取得したら、数学的手法を使用して、類似性に基づいてそれらをグループ化できます。当社が保有する情報をもとに、

したがって、ベクトル埋め込みは、ベクトル空間内の物事間の類似性を見つけるのに役立つ地図のようなものです。地図が世界をナビゲートするのに役立つのと同じように、ベクター埋め込みはベクタープレイグラウンドをナビゲートするのに役立ちます。

重要な考え方は、意味的に類似した埋め込み同士の距離は小さくなるということです。それらがどの程度類似しているかを調べるには、ユークリッド距離、コサイン距離などのベクトル距離関数を使用できます。

ベクターデータベースとベクターライブラリ

ベクターライブラリ 類似性検索を実行するために、メモリ内のインデックスにベクトルの埋め込みを保存します。ベクターライブラリには次の特性/制限があります。

ベクトルのみを保存する : ベクターライブラリはベクターの埋め込みのみを保存し、生成元の関連オブジェクトは保存しません。これは、クエリを実行すると、ベクターライブラリが関連するベクターとオブジェクト ID で応答することを意味します。実際の情報は ID ではなくオブジェクトに保存されるため、これは制限的です。この問題を解決するには、オブジェクトを二次ストレージに保存する必要があります。次に、クエリによって返された ID を使用し、それらをオブジェクトと照合して結果を理解します。
インデックスデータは不変です : ベクターライブラリによって生成されたインデックスは不変です。これは、データをインポートしてインデックスを構築した後は、いかなる変更も行うことができない (新しい挿入、削除、変更はできない) ことを意味します。インデックスを変更するには、インデックスを最初から再構築する必要があります
インポートを制限しながらクエリを実行する : ほとんどのベクトルライブラリは、データのインポート中にクエリを実行できません。最初にすべてのデータオブジェクトをインポートする必要があります。したがって、オブジェクトがインポートされた後にインデックスが作成されます。これは、数百万、さらには数十億のオブジェクトをインポートする必要があるアプリケーションにとっては問題になる可能性があります。

利用可能なベクトル検索ライブラリが多数あります。 FacebookのFAISS、迷惑 Spotifyと スキャンNN Googleによる。 FAISS はクラスタリング手法を使用し、Annoy はツリーを使用し、ScanNN はベクトル圧縮を使用します。それぞれにパフォーマンスのトレードオフがあり、アプリケーションとパフォーマンスのメトリクスに基づいて選択できます。

CRUD

ベクターデータベースとベクターライブラリを区別する主な機能は、データをアーカイブ、更新、削除できることです。 ベクターデータベースは CRUD をサポートしています ベクトルライブラリの制限を解決する完全な (作成、読み取り、更新、および削除)。

ベクトルとオブジェクトをアーカイブする : データベースはデータオブジェクトとベクトルの両方を保存できます。両方が保存されているため、ベクトル検索と構造化フィルターを組み合わせることができます。フィルターを使用すると、最近傍がメタデータフィルターに一致することを確認できます。
可変性 : ベクトルデータベースが完全にサポートしているため ゴミ、 インデックスの作成後に、インデックス内のエントリを簡単に追加、削除、更新できます。これは、常に変化するデータを扱う場合に特に便利です。
リアルタイム検索 : ベクターライブラリとは異なり、データベースを使用すると、インポートプロセス中にデータをクエリしたり変更したりできます。数百万のオブジェクトをロードしても、インポートされたデータは完全にアクセス可能で操作可能な状態を維持するため、インポートの完了を待って既存のデータの作業を開始する必要はありません。

つまり、ベクトルデータベースは、前のポイントで説明した自己完結型ベクトルインデックスの制限に対処することで、ベクトル埋め込みを処理するための優れたソリューションを提供します。

しかし、ベクトルデータベースが従来のデータベースよりも優れている理由は何でしょうか?

ベクターデータベースと従来のデータベースの比較

従来のデータベースは、リレーショナルモデルを使用して構造化データを保存および取得するように設計されています。つまり、データの列と行に基づくクエリに対して最適化されています。従来のデータベースにベクトル埋め込みを保存することは可能ですが、これらのデータベースはベクトル演算用に最適化されていないため、大規模なデータセットに対して類似性検索やその他の複雑な演算を効率的に実行できません。

これは、従来のデータベースでは、文字列や数値などの単純なデータ型に基づいたインデックス作成手法が使用されているためです。これらのインデックス付け手法は、高次元であり、逆インデックスや空間ツリーなどの特殊なインデックス付け手法を必要とするベクトルデータには適していません。

また、従来のデータベースは、ベクトル埋め込みに関連する大量の非構造化データまたは半構造化データを処理できるように設計されていません。たとえば、画像ファイルや音声ファイルには何百万ものデータポイントが含まれる場合がありますが、従来のデータベースではこれらを効率的に処理できません。

一方、ベクトルデータベースは、ベクトルデータの保存と取得に特化して設計されており、大規模なデータセットに対する類似性検索やその他の複雑な操作向けに最適化されています。これらは、高次元データを処理するように設計された特殊なインデックス作成技術とアルゴリズムを使用しており、ベクトル埋め込みの保存と取得において従来のデータベースよりもはるかに効率的です。

ベクトルデータベースについてこれまで読んできたので、ベクトルデータベースがどのように機能するのか疑問に思っているかもしれません。見てみましょう。

ベクトルデータベースはどのように機能するのでしょうか?

リレーショナルデータベースがどのように機能するかは誰もが知っています。リレーショナルデータベースは文字列、数値、その他の種類のスカラーデータを行と列に格納します。一方、ベクトルデータベースはベクトルを操作するため、最適化およびクエリの方法がまったく異なります。

従来のデータベースでは、通常、値がクエリと正確に一致するデータベース内の行をクエリします。ベクトルデータベースでは、類似性メトリックを適用して、クエリに最も類似したベクトルを見つけます。

ベクトルデータベースは、最近傍検索 (ANN) に参加するいくつかのアルゴリズムを組み合わせて使用します。これらのアルゴリズムは、ハッシュ、量子化、またはグラフベースの検索によって検索を最適化します。

これらのアルゴリズムはパイプラインに組み込まれており、クエリされたベクトルの近傍を高速かつ正確に取得できます。ベクトルデータベースはおおよその結果を提供するため、考慮する主なトレードオフは精度と速度の間です。結果が正確であればあるほど、クエリは遅くなります。ただし、優れたシステムでは、ほぼ完璧な精度で超高速検索を行うことができます。

インデックス作成 : ベクトルデータベースは、PQ、LSH、HNSW などのアルゴリズムを使用してベクトルにインデックスを付けます。このステップにより、ベクトルがデータ構造に関連付けられ、より高速な検索が可能になります。
クエリー : ベクトルデータベースは、インデックス付きクエリベクトルをデータセット内のインデックス付きベクトルと比較して、最近傍を見つけます (そのインデックスで使用される類似性メトリックを適用します)
後処理 : 場合によっては、ベクトルデータベースはデータセットから最終的な最近傍をフェッチし、それらを後処理して最終結果を返します。このステップには、異なる類似性尺度を使用して最近傍を再分類することが含まれる場合があります。

メリット

ベクトルデータベースは、従来のデータベースでは効果的に実行できない、大規模なデータセットに対する類似性検索やその他の複雑な操作を行うための強力なツールです。機能的なベクトルデータベースを構築するには、データの意味論的な意味を捉え、正確な類似性検索を可能にする埋め込みが不可欠です。ベクターライブラリとは異なり、ベクターデータベースはユースケースに合わせて設計されているため、パフォーマンスとスケーラビリティが重要なアプリケーションに最適です。機械学習と人工知能の台頭により、ベクターデータベースは、レコメンダーシステム、画像検索、意味的類似性などの幅広いアプリケーションにとってますます重要になってきています。この分野は進化し続けるため、将来的にはベクトルデータベースのさらに革新的なアプリケーションが登場することが期待されます。

Ercole Palmeri

タグ：ベクトルデータベース人工知能

11年2023月7日午前53時XNUMX分

後に世界および中国の自動運転 SoC 研究レポート 2023: ChatGPT の人気は自動運転の開発方向を示す »

Precedente « 調査により政府機関におけるソフトウェアセキュリティの遅れが明らかに

カターニア総合病院での Apple ビューアによる拡張現実への革新的な介入

Apple Vision Pro 商用ビューアを使用した眼形成手術がカターニア総合病院で行われました。

3月2024

グッズ

子供のためのぬり絵の利点 - すべての年齢層のための魔法の世界

ぬり絵を通じて細かい運動能力を発達させることで、子供たちは書くなどのより複雑なスキルを習得できるようになります。色…

2月2024

グッズ

未来はここにあります: 海運業界が世界経済をどのように変革しているか

海軍部門は真の世界経済大国であり、150 億市場に向けて舵を切り続けています...

1月2024

グッズ

パブリッシャーと OpenAI が人工知能によって処理される情報の流れを規制する契約に署名

先週の月曜日、フィナンシャル・タイムズ紙はOpenAIとの契約を発表した。 FT は世界クラスのジャーナリズムにライセンスを供与しています…

4月30 2024

ベクターデータベースとは何か、その仕組みと潜在的な市場

ベクトルデータベースは、データを特徴や属性の数学的表現である高次元ベクトルとして保存するデータベースの一種です。

これらのベクトルは通常、テキスト、画像、オーディオ、ビデオなどの生データに何らかの埋め込み関数を適用することによって生成されます。

高まる投資家の関心

データ表現としてのベクトル

ベクトルの埋め込み

ベクターデータベースとベクターライブラリ

CRUD

ベクターデータベースと従来のデータベースの比較

ベクトルデータベースはどのように機能するのでしょうか?

メリット

最近の記事

カターニア総合病院での Apple ビューアによる拡張現実への革新的な介入

子供のためのぬり絵の利点 - すべての年齢層のための魔法の世界

未来はここにあります: 海運業界が世界経済をどのように変革しているか

パブリッシャーと OpenAI が人工知能によって処理される情報の流れを規制する契約に署名

最近の記事

タグ

ベクターデータベースとは何か、その仕組みと潜在的な市場

ベクトル データベースは、データを特徴や属性の数学的表現である高次元ベクトルとして保存するデータベースの一種です。

これらのベクトルは通常、テキスト、画像、オーディオ、ビデオなどの生データに何らかの埋め込み関数を適用することによって生成されます。

高まる投資家の関心

データ表現としてのベクトル

ベクトルの埋め込み

ベクター データベースとベクター ライブラリ

CRUD

ベクター データベースと従来のデータベースの比較

ベクトルデータベースはどのように機能するのでしょうか?

メリット

最近の記事

カターニア総合病院での Apple ビューアによる拡張現実への革新的な介入

子供のためのぬり絵の利点 - すべての年齢層のための魔法の世界

未来はここにあります: 海運業界が世界経済をどのように変革しているか

パブリッシャーと OpenAI が人工知能によって処理される情報の流れを規制する契約に署名

最近の記事

タグ

ベクトルデータベースは、データを特徴や属性の数学的表現である高次元ベクトルとして保存するデータベースの一種です。

ベクターデータベースとベクターライブラリ

ベクターデータベースと従来のデータベースの比較