: "32B模型力克DeepSeek-R1与o3-mini,成本降幅高达99%!GRPO技术助轻量级模型在推理领域独占鳌头!"

admin82025-03-07 17:32:05

新智元独家报道

编辑:桃子 好困

【新智元深度解析】 在最新的AI推理领域突破中,一款名为32B的小型模型在超复杂的“时间线索”推理谜题中展露锋芒,成功击败了o1、o3-mini、DeepSeek-R1等强手。其背后的秘密武器是GRPO技术,而最令人惊喜的是,其训练成本竟然降低了100倍。

DeepSeek核心算法助力逆袭 运用了DeepSeek的核心算法,32B模型甚至能够战胜R1。在“时间线索”这一极具挑战性的逻辑谜题中,经过强化学习微调的Qwen 2.5 32B模型,其推理能力全面超越了o1、o3-mini、R1。

成本降低,性能不减 更令人振奋的是,32B模型甚至追平了Claude 3.7 Sonnet,而其推理成本却降低了100多倍。

“时间线索”:逻辑推理的巅峰挑战 “时间线索”逻辑谜题源自经典桌游Clue,并加入了“何时”、“为何”两个全新维度,被誉为逻辑推理领域的“珠穆朗玛峰”。

小模型能否超越顶尖LLM? 前谷歌工程师、OpenPipe联合创始人Kyle Corbitt及其团队将这一谜题视为模型的“终极试炼场”,提出了一个大胆的假设:小模型在复杂推理任务中,能否实现逆袭,达到甚至超越顶尖的大型语言模型(LLM)?

魔鬼式训练,显著提升 他们选择了开源的Qwen模型(14B和32B),通过GRPO强化学习技术,对模型进行了严格的训练。结果证明,这些小模型的推理性能得到了显著提升。

Qwen模型揭示新现象 令人惊讶的是,团队还发现了一些有趣的现象:Qwen 14B的推理长度随时间“随机”增加,而Qwen 32B的推理长度却在减少,这一切发生时,奖励机制并未涉及长度因素。

小模型逆袭,挑战传统观念 传统观念认为,只有参数量巨大的LLM才能在推理任务中称霸。但这一最新发现表明,即便是14B/32B的小型模型,通过巧妙的优化策略——GRPO,同样能够站在金字塔的顶端。

AI推理新战场:时间线索 自OpenAI推出划时代的o系列推理模型以来,强化学习(RL)在AI界掀起了一股狂潮。谷歌DeepMind、阿里、DeepSeek、Anthropic等巨头纷纷加入,打造出进行长链式思维(CoT)推理的高级模型。

挑战逻辑推理难题 然而,即便是目前最顶尖的模型,在逻辑推理这一难题面前,也常常犯下低级错误。为此,OpenPipe的两位联合创始人决定挑战这一未解之谜:使用RL微调后的小模型,去挑战复杂的推理题。

打造新基准:时间线索 为此,研究人员基于桌游Clue,创造了一个新的基准——时间线索,将其转化为一个单人逻辑谜题,超越了传统的“谁、什么、哪里”维度。

测试与结果 这些谜题通过OR-Tools的CP-SAT求解器随机生成,并挑选出最精简、最具挑战性的线索。研究人员首先对顶尖大模型进行了测试,包括DeepSeek-R1、o1、o3-mini、Claude Sonnet 3.7,以及开源的Qwen 14B和32B。

小模型训练策略:GRPO 那么,如何将这些较小的开源模型训练到前沿水平呢?答案是强化学习——允许智能体在受控环境中从自身经验中学习。

GRPO算法提升性能 研究人员选择了DeepSeek开发的流行的GRPO算法。与传统的PPO等方法相比,GRPO简化了训练过程,同时仍能提供强大的性能。

模型训练步骤 模型的训练循环遵循以下基本步骤:生成模型对谜题任务的响应,对响应进行评分,并估计每组对话完成的优势,使用由这些优势估计指导的裁剪策略梯度对模型进行微调,使用新的谜题和最新版本的模型重复这些步骤,直到达到峰值性能。

高效推理引擎与数据打包 在生成响应时,研究人员使用了流行的vLLM推理引擎,通过调整参数选择,以最大化吞吐量并最小化启动时间。Prefix caching尤为重要,因为作者为每个任务采样了许多响应,缓存提示有助于避免冗余计算。

模型微调与训练recipes Qwen模型已经经过了预训练和指令微调,具备相当的智能水平,并且擅长遵循指令。然而,它们还无法可靠地解决“时间线索”谜题。通过增加良好推理的概率并减少“不良”推理的概率,研究人员逐步将模型引导至“侦探大师”级的水平。

PyTorch torchtune库助力 在训练过程中,他们使用了PyTorch团队提供的torchtune库。Torchtune为包括Llama、Gemma、Phi等流行模型提供了高效的仅解码器(decoder-only)Transformer实现。

未来展望 未来,他们希望添加张量并行支持,并探索PEFT和量化。

实验结果与性能提升 结果显示,模型在经历超过100次迭代训练后,实现了SOTA级的演绎推理能力。从下图中可以看到,模型的性能在训练初期迅速提升,并在之后逐渐放缓;然而到了末期,准确率却开始出现退化,甚至急剧下降。

性能提升与输出长度变化 在训练过程中,性能提升遵循幂律分布,在对数-对数坐标图上呈现线性关系(在性能开始下降之前)。输出的长度在训练期间也呈现出了一种有趣的变化模式。

逻辑推理能力提升 为了定性评估逻辑推理能力的提升,团队决定使用最新的Claude Sonnet 3.7来对Qwen 32B模型的解谜推理能力进行分析。

成本与准确率权衡 通过将准确率与每个响应平均推理成本的自然对数进行对比,团队发现,没有经过微调的模型存在着明显的线性帕累托最优前沿。而团队提出的方法,不仅将开源模型训练到了SOTA级的准确率,而且还极大地改善了成本与准确率之间的权衡关系。

高效性能提升 值得一提的是,团队还在最后为大家留了一个特别令人兴奋的发现——仅使用16个训练样例就能实现高达10-15%的显著性能提升。

结语 随着工作的圆满完成,团队彼此相视一笑,随即叫了一辆双轮马车返回贝克街——这里正是复盘“案情”的绝佳场所。

参考资料 - https://x.com/corbtt/status/1897735437340627405 - https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue


注意:以上内容为改写后的博客文章,旨在保持原意的同时,提供更流畅、自然的阅读体验。排版和格式已根据博客发布标准进行调整。