昆仑万维开源了其专门为软件工程(SWE)任务设计的代码代理模型Skywork-SWE-32B。
据介绍,昆仑万维团队通过构建超过1万个可验证的GitHub仓库任务实例,打造出目前最大规模的可验证GitHub仓库级代码修复的数据集,并系统性验证了大模型在软件工程任务上的数据缩放定律(Scaling Law)。
Skywork-SWE-32B模型在SWE-bench Verified基准上取得38.0% pass@1准确率,刷新Qwen2.5-Coder-32B系列模型在OpenHands代码框架下的最佳成绩。进一步引入测试时扩展技术后,模型表现提升至47.0%的准确率,不仅超越了现有参数规模在32B以下的开源模型,也显著效缩小了与闭源模型之间的性能差距。
通过结合测试时缩放技术(Test-Time Scaling),Skywork-SWE-32B的性能进一步提升至47.0%的准确率,超越了32B参数以下模型的现有SOTA结果。
昆仑万维还明确展示了LLM软件工程能力的数据缩放定律现象,在收集了8209条训练轨迹后仍未出现饱和迹象。此外,昆仑万维引入了一种高效自动化的SWE数据收集流程,并创建了Skywork-SWE数据集,该数据集具有大规模、高质量和全面的可执行运行时环境。