"仅需200美元,轻松体验QwQ手搓乐趣!清华大学与蚂蚁金服联合推出高效开源RL框架AReaL-boba"

admin82025-03-31 22:52:03

标题:AReaL-boba:重塑大语言模型强化学习训练的新框架


引言:

随着DeepSeek R1和OpenAI o1等大型推理模型(LRM)的出现,强化学习(RL)已成为推动大语言模型能力提升的关键动力。然而,大语言模型的大规模强化学习训练一直面临着诸多挑战。本周,蚂蚁技术研究院与清华大学交叉信息院吴翼团队携手推出了AReaL(Ant Reasoning RL)——一个速度最快、稳定性最强的开源强化学习训练框架,为这一领域的进展带来了新的可能。


挑战与突破:

传统的大规模强化学习训练面临以下难题:

  1. 流程复杂:涉及多个模块(生成、训练、奖励判定等),实现高效稳定的分布式训练充满挑战。
  2. 模型输出长:R1/o1类推理模型的输出长度超过10K,且训练过程中持续变化,极易引发显存和效率瓶颈。
  3. 数据稀缺:开源社区缺乏高质量的强化学习训练数据,且完整可复现的训练流程不足。

为了解决这些问题,蚂蚁技术研究院与清华大学交叉信息院吴翼团队联合推出了AReaL框架,并在本周发布了最新版本AReaL-boba。


AReaL-boba:速度与效率的双重突破

AReaL-boba以其卓越的性能赢得了业界的关注:

  1. 速度:在7B模型上,数学推理分数刷新了同尺寸模型AIME分数的纪录。
  2. 效率:仅需200条数据,即可复刻QwQ-32B的推理效果,成本仅为不到200美元。

AReaL-boba的项目链接:AReaL-boba GitHub

HuggingFace数据模型地址:HuggingFace AReaL-boba


关于AReaL-boba

AReaL源自开源项目ReaLHF,旨在让每个人都能轻松使用强化学习训练自己的推理模型和智能体。AReaL承诺完全开放与可复现,团队将持续发布与训练LRM相关的所有代码、数据集和训练流程。所有核心组件全部开源,开发者可无障碍地使用、验证和改进AReaL。

命名“boba”不仅因为团队对珍珠奶茶的喜爱,更是希望强化学习技术能像奶茶一样普及,成为AI开发日常场景的必备之选。


AReaL-boba发布亮点

  • 训练速度最快的开源框架:AReaL-boba是首个全面拥抱xAI公司所采用的SGLang推理框架的开源训练系统,大幅提升了训练吞吐。
  • 7B模型数学推理分数断崖领先:AReaL团队以Qwen-R1-Distill-7B模型为基础,通过大规模强化学习训练,在两天内取得领域最佳的数学推理能力。

结语:

AReaL团队由蚂蚁研究院强化学习实验室和交叉信息研究院吴翼团队的核心成员组成,项目借鉴了大量优秀的开源项目,旨在实现AI训练的普惠。团队的未来计划包括异步训练、训练吞吐优化、数据集和算法升级,以及代码和Agent智能体能力支持。让我们共同期待AReaL的下一个版本,或许下一次会带来什么样的惊喜呢?

项目官方仓库

技术笔记