清华大学与蚂蚁集团发布异步强化学习训练平台 AReaL-boba²

来源: OSCHINA
编辑:
2025-06-06 14:21:00

清华大学与蚂蚁集团InclusionAI团队联合发布了一款名为AReaL-boba²的异步强化学习(RL)训练平台。该平台专为大型语言模型设计,与传统的同步强化学习训练方法相比,它能在保持相似训练结果的同时,大幅缩短训练时间。

这得益于AReaL中实现的“版本感知”算法,该算法使得异步训练成为可能,并简化了多轮次智能体任务的强化学习过程。

AReaL-boba²最大的亮点是完全解耦了模型生成与训练,实现了不间断的流式数据生成和并行训练。在效果不变的前提下,其训练速度达到了上一版本的2.77倍。研究团队还在Qwen3系列模型的基础上,使用AReaL-boba²进行强化学习训练,并将相关模型开源。

在多项编程领域权威基准测试上,强化学习后的8B和14B参数模型,实现了同尺寸模型中的SOTA水准。

团队已将该项目的端到端代码、数据集以及一个业界领先的编码模型完全开源。

开源地址:https://github.com/inclusionAI/AReaL/

论文链接:https://arxiv.org/pdf/2505.24298

SOTA模型下载链接:https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5

展开阅读全文
点击引领话题📣 发布并加入讨论🔥
0 评论
5 收藏
分享
返回顶部
顶部