Thời gian đọc ước tính: 9 minuti
Trong những tuần gần đây, sự quan tâm của các nhà đầu tư đối với cơ sở dữ liệu véc tơ đã tăng lên. Kể từ đầu năm 2023, chúng tôi nhận thấy rằng:
Hãy xem chi tiết hơn cơ sở dữ liệu vectơ là gì.
Cơ sở dữ liệu vectơ chủ yếu dựa vào nhúng vectơ, một loại biểu diễn dữ liệu mang bên trong nó thông tin ngữ nghĩa quan trọng để AI hiểu và duy trì trí nhớ dài hạn để sử dụng khi thực hiện các hoạt động phức tạp.
Vector nhúng giống như một bản đồ, nhưng thay vì chỉ cho chúng ta biết mọi thứ ở đâu trên thế giới, chúng chỉ cho chúng ta biết mọi thứ ở đâu trong một thứ gọi là không gian vectơ. Không gian vectơ là một sân chơi lớn, nơi mọi thứ đều có chỗ để chơi. Hãy tưởng tượng rằng bạn có một nhóm động vật: một con mèo, một con chó, một con chim và một con cá. Chúng ta có thể tạo một vectơ nhúng cho mỗi hình ảnh bằng cách đặt cho nó một vị trí đặc biệt trên sân chơi. Con mèo có thể ở một góc, con chó ở phía bên kia. Con chim có thể ở trên trời và con cá có thể ở trong ao. Nơi này là một không gian đa chiều. Mỗi chiều tương ứng với các khía cạnh khác nhau của chúng, ví dụ, cá có vây, chim có cánh, mèo và chó có chân. Một khía cạnh khác của chúng có thể là cá thuộc về nước, chim thuộc về bầu trời và chó mèo thuộc về đất. Khi chúng ta có các vectơ này, chúng ta có thể sử dụng các kỹ thuật toán học để nhóm chúng dựa trên sự giống nhau của chúng. Dựa trên thông tin chúng tôi nắm giữ,
Vì vậy, phép nhúng vectơ giống như một bản đồ giúp chúng ta tìm thấy sự giống nhau giữa các vật trong không gian vectơ. Cũng giống như bản đồ giúp chúng ta điều hướng thế giới, việc nhúng vectơ giúp điều hướng sân chơi vectơ.
Ý tưởng chính là các phần nhúng giống nhau về mặt ngữ nghĩa sẽ có khoảng cách nhỏ hơn giữa chúng. Để tìm hiểu xem chúng giống nhau như thế nào, chúng ta có thể sử dụng các hàm khoảng cách vectơ như khoảng cách Euclide, khoảng cách cosine, v.v.
thư viện véc tơ lưu trữ các phần nhúng của vectơ trong các chỉ mục trong bộ nhớ để thực hiện các tìm kiếm tương tự. Các thư viện Vector có các đặc điểm/hạn chế sau:
Có rất nhiều thư viện tìm kiếm vector có sẵn: FAISS của Facebook, làm phiền bởi Spotify và quétNN bởi Google. FAISS sử dụng phương pháp phân cụm, Annoy sử dụng cây và ScanNN sử dụng nén vector. Có một sự đánh đổi về hiệu suất cho mỗi loại mà chúng ta có thể chọn dựa trên số liệu về ứng dụng và hiệu suất của mình.
Tính năng chính giúp phân biệt cơ sở dữ liệu vectơ với thư viện vectơ là khả năng lưu trữ, cập nhật và xóa dữ liệu. Cơ sở dữ liệu vectơ có hỗ trợ CRUD hoàn thành (tạo, đọc, cập nhật và xóa) giải quyết các hạn chế của thư viện vectơ.
Nói tóm lại, một cơ sở dữ liệu vectơ cung cấp một giải pháp ưu việt để xử lý các vectơ nhúng bằng cách giải quyết các hạn chế của các chỉ số vectơ độc lập như đã thảo luận ở các điểm trước.
Nhưng điều gì làm cho cơ sở dữ liệu vector vượt trội so với cơ sở dữ liệu truyền thống?
Cơ sở dữ liệu truyền thống được thiết kế để lưu trữ và truy xuất dữ liệu có cấu trúc bằng các mô hình quan hệ, nghĩa là chúng được tối ưu hóa cho các truy vấn dựa trên các cột và hàng dữ liệu. Mặc dù có thể lưu trữ các phần nhúng vectơ trong cơ sở dữ liệu truyền thống nhưng các cơ sở dữ liệu này không được tối ưu hóa cho các hoạt động của vectơ và không thể thực hiện tìm kiếm tương tự hoặc các hoạt động phức tạp khác trên các tập dữ liệu lớn một cách hiệu quả.
Điều này là do cơ sở dữ liệu truyền thống sử dụng các kỹ thuật lập chỉ mục dựa trên các kiểu dữ liệu đơn giản, chẳng hạn như chuỗi hoặc số. Các kỹ thuật lập chỉ mục này không phù hợp với dữ liệu vectơ, dữ liệu có số chiều cao và yêu cầu các kỹ thuật lập chỉ mục chuyên biệt như chỉ mục đảo ngược hoặc cây không gian.
Ngoài ra, cơ sở dữ liệu truyền thống không được thiết kế để xử lý một lượng lớn dữ liệu phi cấu trúc hoặc bán cấu trúc thường liên quan đến nhúng vectơ. Ví dụ: một tệp hình ảnh hoặc âm thanh có thể chứa hàng triệu điểm dữ liệu mà cơ sở dữ liệu truyền thống không thể xử lý hiệu quả.
Mặt khác, cơ sở dữ liệu vectơ được thiết kế đặc biệt để lưu trữ và truy xuất dữ liệu vectơ và được tối ưu hóa cho các tìm kiếm tương tự và các hoạt động phức tạp khác trên các tập dữ liệu lớn. Chúng sử dụng các thuật toán và kỹ thuật lập chỉ mục chuyên biệt được thiết kế để hoạt động với dữ liệu nhiều chiều, giúp chúng hiệu quả hơn nhiều so với cơ sở dữ liệu truyền thống để lưu trữ và truy xuất các bản nhúng vectơ.
Bây giờ bạn đã đọc rất nhiều về cơ sở dữ liệu vectơ, bạn có thể tự hỏi chúng hoạt động như thế nào? Hãy xem qua.
Chúng ta đều biết cơ sở dữ liệu quan hệ hoạt động như thế nào: chúng lưu trữ các chuỗi, số và các loại dữ liệu vô hướng khác trong các hàng và cột. Mặt khác, cơ sở dữ liệu vectơ hoạt động trên vectơ, vì vậy cách nó được tối ưu hóa và truy vấn là hoàn toàn khác.
Trong cơ sở dữ liệu truyền thống, chúng tôi thường truy vấn các hàng trong cơ sở dữ liệu mà giá trị thường khớp chính xác với truy vấn của chúng tôi. Trong cơ sở dữ liệu vectơ, chúng tôi áp dụng một số liệu tương tự để tìm một vectơ giống nhất với truy vấn của chúng tôi.
Cơ sở dữ liệu vectơ sử dụng kết hợp một số thuật toán, tất cả đều tham gia tìm kiếm hàng xóm gần nhất (ANN). Các thuật toán này tối ưu hóa tìm kiếm bằng cách băm, lượng tử hóa hoặc tìm kiếm dựa trên biểu đồ.
Các thuật toán này được tập hợp thành một đường dẫn cung cấp khả năng truy xuất nhanh chóng và chính xác các lân cận của vectơ được truy vấn. Vì cơ sở dữ liệu vectơ cung cấp kết quả gần đúng nên sự đánh đổi chính mà chúng tôi xem xét là giữa độ chính xác và tốc độ. Kết quả càng chính xác, truy vấn sẽ càng chậm. Tuy nhiên, một hệ thống tốt có thể cung cấp khả năng tìm kiếm cực nhanh với độ chính xác gần như hoàn hảo.
Cơ sở dữ liệu vectơ là một công cụ mạnh mẽ để tìm kiếm sự tương tự và các hoạt động phức tạp khác trên các tập dữ liệu lớn, không thể thực hiện hiệu quả bằng cơ sở dữ liệu truyền thống. Để xây dựng một cơ sở dữ liệu vectơ chức năng, các phần nhúng là rất cần thiết, vì chúng nắm bắt được ý nghĩa ngữ nghĩa của dữ liệu và cho phép tìm kiếm sự tương đồng chính xác. Không giống như các thư viện vectơ, cơ sở dữ liệu vectơ được thiết kế để phù hợp với trường hợp sử dụng của chúng tôi, khiến chúng trở nên lý tưởng cho các ứng dụng mà hiệu suất và khả năng mở rộng là rất quan trọng. Với sự phát triển của máy học và trí tuệ nhân tạo, cơ sở dữ liệu vectơ ngày càng trở nên quan trọng đối với nhiều ứng dụng bao gồm hệ thống đề xuất, tìm kiếm hình ảnh, sự giống nhau về ngữ nghĩa và danh sách này còn tiếp tục. Khi lĩnh vực này tiếp tục phát triển, chúng ta có thể kỳ vọng sẽ thấy nhiều ứng dụng sáng tạo hơn nữa của cơ sở dữ liệu vectơ trong tương lai.
Ercole Palmeri
Một ca phẫu thuật tạo hình mắt bằng cách sử dụng trình xem thương mại Apple Vision Pro đã được thực hiện tại Phòng khám đa khoa Catania…
Phát triển kỹ năng vận động tinh thông qua tô màu giúp trẻ chuẩn bị cho những kỹ năng phức tạp hơn như viết. Để tô màu…
Ngành hải quân là một cường quốc kinh tế toàn cầu thực sự, đang hướng tới thị trường 150 tỷ...
Thứ Hai tuần trước, Financial Times đã công bố một thỏa thuận với OpenAI. FT cấp phép cho hoạt động báo chí đẳng cấp thế giới…