通义开源首个多模态推理模型 QVQ,视觉推理比肩 OpenAI o1

来源: OSCHINA
2024-12-25 14:06:00

12月25日,阿里云通义千问发布业界首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现突出。

QVQ-72B-Preview是由 Qwen 团队开发的实验性研究模型,专注于增强视觉推理能力。

尽管它的表现超出了预期,但仍有几个限制需要注意:

  1. 语言混合与切换:模型可能会意外地混合语言或在语言之间切换,从而影响响应的清晰度。
  2. 递归推理:模型可能会陷入循环逻辑模式,产生冗长的响应而无法得出结论。
  3. 安全和伦理考虑:模型需要增强安全措施,以确保可靠和安全的性能,用户在部署时应保持谨慎。
  4. 性能和基准限制:尽管模型在视觉推理方面有所改善,但它无法完全替代 Qwen2-VL-72B 的能力。此外,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。

多项评测数据显示,QVQ超越了此前的视觉理解模型Qwen2-VL,整体表现与OpenAI o1、Claude3.5 Sonnet等推理模型相当。

目前,开发者可在魔搭社区和HuggingFace平台上直接体验。

模型链接:https://modelscope.cn/models/Qwen/QVQ-72B-Preview
体验链接:https://modelscope.cn/studios/Qwen/QVQ-72B-preview
中文博客:https://qwenlm.github.io/zh/blog/qvq-72b-preview


更多独家技术见解与热门话题讨论,尽在【开源中国 APP】,与数百万开发者一起,随时随地探索技术无限可能。

展开阅读全文
点击加入讨论🔥(1) 发布并加入讨论🔥
1 评论
0 收藏
分享
返回顶部
顶部