智谱宣布在 MIT 许可下开源新一代的旗舰级智能体工程模型 GLM-5.1 ,编码能力比上一代产品显著增强。
根据介绍,GLM-5.1 在 SWE-Bench Pro 测试中以 58.4 分的成绩刷新纪录,并在 NL2Repo(代码库生成)和 Terminal-Bench 2.0(真实终端任务)测试中大幅领先于 GLM-5。
GLM-5.1 的设计目标是在更长的时间跨度内保持对智能体任务的有效性。该模型能够更准确地处理模糊问题,并在更长的运行时间内保持高效。它能够分解复杂问题,运行实验,解读结果,并精准地识别障碍。通过反复迭代,GLM-5.1 不断回顾其推理过程并调整策略,从而在数百轮迭代和数千次工具调用中持续优化。运行时间越长,结果越好。
智谱方面表示,GLM-5.1 显著地扩展了有效运行时间,超越了 GLM-5,但 KernelBench 等任务上仍然存在的差距表明,长期优化仍然是一个开放的领域。仍然面临着诸多挑战:如何在增量调优不再奏效时尽早跳出局部最优解;如何在跨越数千次工具调用的执行轨迹上保持一致性;以及——或许最为重要的是——如何在没有数值指标可供优化的任务中开发可靠的自评估机制。
评论删除后,数据将无法恢复
智谱开源 GLM-5.1:面向长周期任务
智谱宣布在 MIT 许可下开源新一代的旗舰级智能体工程模型 GLM-5.1 ,编码能力比上一代产品显著增强。
根据介绍,GLM-5.1 在 SWE-Bench Pro 测试中以 58.4 分的成绩刷新纪录,并在 NL2Repo(代码库生成)和 Terminal-Bench 2.0(真实终端任务)测试中大幅领先于 GLM-5。
GLM-5.1 的设计目标是在更长的时间跨度内保持对智能体任务的有效性。该模型能够更准确地处理模糊问题,并在更长的运行时间内保持高效。它能够分解复杂问题,运行实验,解读结果,并精准地识别障碍。通过反复迭代,GLM-5.1 不断回顾其推理过程并调整策略,从而在数百轮迭代和数千次工具调用中持续优化。运行时间越长,结果越好。
智谱方面表示,GLM-5.1 显著地扩展了有效运行时间,超越了 GLM-5,但 KernelBench 等任务上仍然存在的差距表明,长期优化仍然是一个开放的领域。仍然面临着诸多挑战:如何在增量调优不再奏效时尽早跳出局部最优解;如何在跨越数千次工具调用的执行轨迹上保持一致性;以及——或许最为重要的是——如何在没有数值指标可供优化的任务中开发可靠的自评估机制。