稀宇科技宣布推出 MiniMax M2.5:
M2.5 在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的 SOTA,比如 SWE-Bench Verified (80.2%),Multi-SWE-Bench (51.3%),BrowseComp (76.3%);
M2.5 优化了模型对复杂任务的拆解能力和思考过程中 token 的消耗,使其能更快地完成复杂的 Agentic 任务。在 SWE-Bench Verified 的测试中,M2.5 比上一个版本 M2.1 完成任务的速度快了 37%;
M2.5 让无限运行复杂 Agent 在经济上可行。在每秒输出 100 token 的情况下,M2.5 连续工作一小时只需花费 1 美金;而在每秒输出 50 个 token 的情况下,只需要 0.3 美金。
据了解,MiniMax 内部已率先受益于 M2.5 的模型能力。在 MiniMax 内部真实业务场景中,整体任务的 30% 由 M2.5 自主完成,覆盖研发、产品、销售、HR、财务等职能,且渗透率仍在持续上升。其中,在编程场景表现尤为突出,M2.5 生成的代码已占新提交代码的 80%。
在编程的核心测试中,M2.5 相比于上一代模型有了显著提升,达到了跟 Claude Opus 系列类似的水平。在多语言相关的任务 Multi-SWE-Bench 上,M2.5 更是达到了第一。
M2.5 具备了「像架构师一样思考和构建」的能力,比如模型演化出了原生 Spec 行为:在动手写代码前,以架构师视角主动拆解功能、结构和 UI 设计,实现完整的前期规划。
M2.5 在超过 10 种语言(包括 GO、C、C++、TS、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby)和数十万个真实环境中进行了训练。不仅限于 bug fixed 类场景,复杂系统的从 0-1 系统设计、环境构建,从 1-10 的系统开发,从 10-90 的功能迭代,从 90-100 的完备 code review 与系统测试,M2.5 都有可靠的表现,能够胜任各类复杂系统开发的全流程。覆盖 Web、Android、iOS、Windows、Mac 等多平台的全栈项目,包含 Server 端 API、功能逻辑、DataBase 等,而不仅仅是“前端网页 demo”。
M2.5 已在 MiniMax 全线产品全量上线:
MiniMax Agent: agent.minimaxi.com M2.5 API 接入: platform.minimaxi.com/docs/guides/text-generation Coding Plan 订阅: platform.minimaxi.com/subscribe/coding-plan
评论删除后,数据将无法恢复
MiniMax M2.5 发布:1 美金/小时,真实世界工作王者
稀宇科技宣布推出 MiniMax M2.5:
M2.5 在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的 SOTA,比如 SWE-Bench Verified (80.2%),Multi-SWE-Bench (51.3%),BrowseComp (76.3%);
M2.5 优化了模型对复杂任务的拆解能力和思考过程中 token 的消耗,使其能更快地完成复杂的 Agentic 任务。在 SWE-Bench Verified 的测试中,M2.5 比上一个版本 M2.1 完成任务的速度快了 37%;
M2.5 让无限运行复杂 Agent 在经济上可行。在每秒输出 100 token 的情况下,M2.5 连续工作一小时只需花费 1 美金;而在每秒输出 50 个 token 的情况下,只需要 0.3 美金。
据了解,MiniMax 内部已率先受益于 M2.5 的模型能力。在 MiniMax 内部真实业务场景中,整体任务的 30% 由 M2.5 自主完成,覆盖研发、产品、销售、HR、财务等职能,且渗透率仍在持续上升。其中,在编程场景表现尤为突出,M2.5 生成的代码已占新提交代码的 80%。
在编程的核心测试中,M2.5 相比于上一代模型有了显著提升,达到了跟 Claude Opus 系列类似的水平。在多语言相关的任务 Multi-SWE-Bench 上,M2.5 更是达到了第一。
M2.5 具备了「像架构师一样思考和构建」的能力,比如模型演化出了原生 Spec 行为:在动手写代码前,以架构师视角主动拆解功能、结构和 UI 设计,实现完整的前期规划。
M2.5 在超过 10 种语言(包括 GO、C、C++、TS、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby)和数十万个真实环境中进行了训练。不仅限于 bug fixed 类场景,复杂系统的从 0-1 系统设计、环境构建,从 1-10 的系统开发,从 10-90 的功能迭代,从 90-100 的完备 code review 与系统测试,M2.5 都有可靠的表现,能够胜任各类复杂系统开发的全流程。覆盖 Web、Android、iOS、Windows、Mac 等多平台的全栈项目,包含 Server 端 API、功能逻辑、DataBase 等,而不仅仅是“前端网页 demo”。
M2.5 已在 MiniMax 全线产品全量上线:
MiniMax Agent: agent.minimaxi.com
M2.5 API 接入: platform.minimaxi.com/docs/guides/text-generation
Coding Plan 订阅: platform.minimaxi.com/subscribe/coding-plan