小米宣布开源新一版的多模态大模型 Xiaomi MiMo-VL-7B-2508(含 SFT 和 RL 两个模型),优化了输出模式,提升了RL训练过程的稳定性,并在多项能力上得到了明显增强。此外,用户还可以指定模型在“思考和非思考”模式切换。
核心亮点
多项能力提升
对比5月开源的多模态模型 MiMo-VL-7B-RL,新版本 MiMo-VL-7B-RL-2508 全面提升:
- 在学科推理 benchmark MMMU 上首次突破70,从 66.7 增长为 70.6
- 在文档理解 benchmark ChartQA 上,从 91.7 增长为 94.4
- 在 GUI Grounding benchmark ScreenSpot-v2 上,从 90.5 增长为 92.5
- 在视频理解 benchmark VideoMME 上,从 67.4 增长为 70.8

思考模式自主切换
功能允许用户在query当中使用 /no_think 自主控制模型是否进入思考模式:
- 思考模式(默认行为):推理过程全程可见,能力发挥更全面,性能更好,控制成功率 100%
- 非思考模式:无需推理,响应速度更快,控制成功率 99.84%
更好的用户使用体验
其内部 VLM Arena 评分显示,实际性能显著提升:
- 当前模型 MiMo-VL-7B-RL-2508:1131.2分
- 上一版本 MiMo-VL-7B-RL:1093.9分
测评结果表明:
- MiMo-VL-7B-RL-2508 在多项基准测试中取得显著提升。通过进一步优化 SFT 和 RL 训练过程,该模型在大多数基准测试上超越了前代版本。
- 在非思考模式下,模型在侧重感知的任务中的性能依然出色。
- 与同期开源带thinking的多模态模型的对比,MiMo-VL-7B-RL-2508 整体处于领先。

暂无更多评论