货物

微软推出了一种识别图像内容并修复视觉问题的人工智能模型

AI Kosmos-1 的新型号是多式联运 Large Language Model (MLLM),不仅能够响应语言提示,还能响应视觉提示,因此能够更好地响应问答环节。

多模式人工智能 (MLLM) 可能是通用人工智能发展的关键,这种技术在未来可以在任何智力任务或工作中取代人类。

什么是 Kosmos-1

Kosmos-1 是微软研究人员开发的多模态模型。 上周一,它作为一款能够:

  • 阅读图像的内容,
  • 解决视觉难题,
  • 识别图像中的文字,
  • 在视觉智商测试中取得好成绩
  • 理解以自然语言给出的指令。

的发展人工智能 多模式被视为创建能够执行一般人类任务的通用人工智能 (AGI) 的关键一步。

语言不是你所需要的全部:将感知与语言模型相结合

研究人员在他们的学术论文中写道:“作为智能的基本组成部分,多模态感知是实现人工智能的必要条件,就知识获取和现实世界嵌入而言,” 语言不是你所需要的全部:将感知与语言模型相结合.

Kosmos-1 模型可以分析图像并回答有关它们的问题,从图像中读取文本,为图像编写标题,并在视觉智商测试中得分在 22% 到 26% 之间,如 Kosmos-1 中的视觉示例所示学习。

创新通讯
不要错过有关创新的最重要新闻。 注册以通过电子邮件接收它们。

OpenAI 通用人工智能

微软在人工智能领域的主要业务合作伙伴 OpenAI 已将 AGI 作为其主要关注点。 Kosmos-1 似乎是微软的独家倡议,没有 OpenAI 的帮助。

BlogInnovazione.it

创新通讯
不要错过有关创新的最重要新闻。 注册以通过电子邮件接收它们。

Articoli最新回应

卡塔尼亚综合诊所的 Apple 观众对增强现实进行创新干预

卡塔尼亚综合诊所使用 Apple Vision Pro 商业查看器进行了眼部整形手术……

3 2024五月

儿童涂色页的好处 - 适合所有年龄段的魔法世界

通过着色培养精细运动技能可以帮助孩子们为写作等更复杂的技能做好准备。填色…

2 2024五月

未来已来:航运业如何彻底改变全球经济

海军部门是真正的全球经济力量,已迈向 150 亿美元的市场……

1 2024五月

出版商和 OpenAI 签署协议以规范人工智能处理的信息流

上周一,英国《金融时报》宣布与 OpenAI 达成协议。英国《金融时报》授予其世界级新闻报道许可……

四月30 2024