Các bài viết

Microsoft tiết lộ mô hình AI nhận dạng nội dung hình ảnh và khắc phục các vấn đề về hình ảnh

Mô hình mới của AI Kosmos-1 là mô hình đa phương thức Large Language Model (MLLM), có thể phản hồi không chỉ với các tín hiệu ngôn ngữ mà còn với các tín hiệu thị giác, và do đó phản hồi tốt hơn trong các phiên hỏi đáp.

Trí tuệ nhân tạo đa phương thức (MLLM) có thể là chìa khóa để phát triển trí tuệ nhân tạo nói chung, một công nghệ trong tương lai có thể thay thế con người trong bất kỳ nhiệm vụ hay công việc trí tuệ nào.

Kosmos-1 là gì

Kosmos-1 là một mô hình đa phương thức được phát triển bởi các nhà nghiên cứu của Microsoft. Thứ Hai tuần trước, nó đã được công bố là một mô hình có khả năng:

đọc nội dung của hình ảnh,
giải câu đố trực quan,
nhận dạng văn bản trong hình ảnh,
đạt điểm cao trong các bài kiểm tra IQ trực quan
hiểu các hướng dẫn được đưa ra bằng ngôn ngữ tự nhiên.

Sự phát triển củaTrí tuệ nhân tạo đa phương thức được coi là một bước quan trọng để tạo ra một trí tuệ nhân tạo chung (AGI) có khả năng thực hiện các nhiệm vụ chung ở cấp độ con người.

Ngôn ngữ không phải là tất cả những gì bạn cần: Căn chỉnh nhận thức với các mô hình ngôn ngữ

Các nhà nghiên cứu viết trong bài báo học thuật của họ: “Là một phần cơ bản của trí thông minh, nhận thức đa phương thức là điều cần thiết để đạt được trí tuệ nhân tạo nói chung, về mặt tiếp thu kiến thức và nhúng vào thế giới thực”. Ngôn ngữ không phải là tất cả những gì bạn cần: Căn chỉnh nhận thức với mô hình ngôn ngữ.

Mô hình Kosmos-1 có thể phân tích hình ảnh và trả lời các câu hỏi về chúng, đọc văn bản từ hình ảnh, viết chú thích cho hình ảnh và đạt điểm từ 22 đến 26 phần trăm trong bài kiểm tra IQ trực quan, chẳng hạn như được minh họa trong các ví dụ trực quan trong Kosmos-1 học.

AGI cho OpenAI

OpenAI, đối tác kinh doanh chính của Microsoft trong lĩnh vực trí tuệ nhân tạo, đã đặt AGI làm trọng tâm chính của mình. Kosmos-1 dường như là một sáng kiến độc quyền của Microsoft, không có sự hỗ trợ của OpenAI.

BlogInnovazione.it