Artikel

Microsoft meluncurkan model AI yang mengenali konten gambar dan memperbaiki masalah visual

Model baru AI Kosmos-1 adalah Multimodal Large Language Model (MLLM), mampu merespons tidak hanya isyarat linguistik, namun juga isyarat visual, dan oleh karena itu merespons sesi tanya jawab dengan lebih baik.

Kecerdasan buatan multimodal (MLLM) bisa menjadi kunci pengembangan kecerdasan umum buatan, sebuah teknologi yang di masa depan dapat menggantikan manusia dalam tugas atau pekerjaan intelektual apa pun.

Apa itu Kosmos-1

Kosmos-1 adalah model multimodal yang dikembangkan oleh peneliti Microsoft. Senin lalu, diluncurkan sebagai model yang mampu:

membaca isi gambar,
memecahkan teka-teki visual,
mengenali teks dalam gambar,
skor baik pada tes IQ visual
memahami instruksi yang diberikan dalam bahasa alami.

PerkembanganKecerdasan Buatan multimodal dipandang sebagai langkah penting untuk menciptakan kecerdasan umum buatan (AGI) yang mampu melakukan tugas tingkat manusia secara umum.

Bahasa Bukan Semua yang Anda Butuhkan: Menyelaraskan Persepsi dengan Model Bahasa

“Menjadi bagian mendasar dari kecerdasan, persepsi multimodal adalah kebutuhan untuk mencapai kecerdasan umum buatan, dalam hal perolehan pengetahuan dan penanaman dunia nyata,” tulis para peneliti dalam makalah akademis mereka, Bahasa Bukan Semua yang Anda Butuhkan: Menyelaraskan Persepsi dengan Model Bahasa.

Model Kosmos-1 dapat menganalisis gambar dan menjawab pertanyaan tentangnya, membaca teks dari gambar, menulis keterangan untuk gambar, dan skor antara 22 dan 26 persen pada tes IQ visual, seperti yang ditunjukkan dalam contoh visual di Kosmos-1 belajar.

AGI untuk OpenAI

OpenAI, mitra bisnis utama Microsoft dalam kecerdasan buatan, telah menetapkan AGI sebagai fokus utamanya. Kosmos-1 tampaknya merupakan inisiatif eksklusif Microsoft, tanpa bantuan OpenAI.

BlogInnovazione.it