继 Qwen3.6-Plus 发布之后,阿里今日发布 Qwen3.6-Max-Preview。相比 Qwen3.6-Plus,本次预览版带来了更强的世界知识和指令遵循能力,以及在多项基准上显著提升的智能体编程表现。
Qwen3.6-Max-Preview 在 SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench 和 SciCode 六项主要编程基准上取得了最高分,相比前代有大幅进步。同时在知识(SuperGPQA、QwenChineseBench)和指令遵循(ToolcallFormatIFBench)方面也表现更优。作为预览版,模型仍在积极迭代中,后续版本将持续优化。
Qwen3.6-Max-Preview主要特性包括:
以下展示了 Qwen3.6-Max-Preview 与主流前沿模型的评测对比。相比 Qwen3.6-Plus,预览版在智能体编程方面取得显著提升(如 SkillsBench +9.9、SciCode +10.8、NL2Repo +5.0、Terminal-Bench 2.0 +3.8),世界知识更强(SuperGPQA +2.3、QwenChineseBench +5.3),指令遵循也更优(ToolcallFormatIFBench +2.8)。
评论删除后,数据将无法恢复
Qwen3.6-Max-Preview 发布
继 Qwen3.6-Plus 发布之后,阿里今日发布 Qwen3.6-Max-Preview。相比 Qwen3.6-Plus,本次预览版带来了更强的世界知识和指令遵循能力,以及在多项基准上显著提升的智能体编程表现。
Qwen3.6-Max-Preview 在 SWE-bench Pro、Terminal-Bench 2.0、SkillsBench、QwenClawBench、QwenWebBench 和 SciCode 六项主要编程基准上取得了最高分,相比前代有大幅进步。同时在知识(SuperGPQA、QwenChineseBench)和指令遵循(ToolcallFormatIFBench)方面也表现更优。作为预览版,模型仍在积极迭代中,后续版本将持续优化。
Qwen3.6-Max-Preview主要特性包括:
以下展示了 Qwen3.6-Max-Preview 与主流前沿模型的评测对比。相比 Qwen3.6-Plus,预览版在智能体编程方面取得显著提升(如 SkillsBench +9.9、SciCode +10.8、NL2Repo +5.0、Terminal-Bench 2.0 +3.8),世界知识更强(SuperGPQA +2.3、QwenChineseBench +5.3),指令遵循也更优(ToolcallFormatIFBench +2.8)。