标题:阿里AI再创辉煌!QwQ-32B模型证明小参数也能实现大模型级性能
近日,阿里AI领域再传喜讯!其最新推出的推理模型QwQ-32B成功证明了即便参数规模较小,也能达到大模型级别的卓越性能。
3月6日,阿里通义千问Qwen团队正式发布了这款名为QwQ-32B的大语言模型。据官方透露,这款模型仅包含320亿参数,却在性能上与拥有6710亿参数的DeepSeek-R1(其中370亿参数被激活)不相上下,甚至在某些测试中实现了超越。
阿里Qwen团队表示,这一成果充分展示了强化学习在经过大规模预训练的强大基础模型上的应用潜力。团队希望通过这一成果,证明强大的基础模型结合大规模强化学习,或许是一条通往通用人工智能的可行之路。
除了基础推理能力外,QwQ-32B还具备与Agent相关的功能,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
参数精简,性能卓越,成本降低至十分之一
官方发布的测试结果显示,QwQ-32B在多项关键评测中均表现出色:
- 在AIME24评测集上,QwQ-32B与DeepSeek-R1的数学能力相当,远超o1-mini及同尺寸的R1蒸馏模型; - 在LiveCodeBench代码能力评估中,表现同样与DeepSeek-R1相当; - 在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench上,QwQ-32B得分超越DeepSeek-R1; - 在谷歌等提出的指令遵循能力IFEval评测集中,成绩优于DeepSeek-R1; - 在加州大学伯克利分校等提出的BFCL测试中,同样超越DeepSeek-R1。海外网友对QwQ-32B进行了测试,并展示了不同推理模型在LiveBench评分中的表现以及它们的输出令牌成本。结果显示,QwQ 32B的评分位于R1和o3-mini之间,但其成本仅为它们的十分之一,体现了其在性能与成本之间的出色平衡:
- QwQ 32B的LiveBench评分约为72.5分,成本约为$0.25。
- R1的评分约为70分,成本约为$2.50。
- o3-mini的评分约为75分,成本约为$5.00。
有用户已经部署并使用了QwQ-32B,表示在笔记本电脑上运行速度非常快,并展示了其思考过程。
强化学习:QwQ-32B的“秘密武器”
QwQ-32B的卓越性能主要得益于其采用的大规模强化学习方法。阿里团队在冷启动的基础上,开展了分阶段强化学习训练策略:
- 初始阶段:重点针对数学和编程任务进行RL训练。团队摒弃了传统的奖励模型,转而采用更直接的验证方式,通过校验生成答案的正确性为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。 - 扩展阶段:增加了针对通用能力的RL训练。这一阶段使用通用奖励模型和基于规则的验证器,帮助模型在保持数学和编程能力的同时,提升其他通用能力。研究表明,随着RL训练轮次的增加,模型在数学和编程领域的性能均呈现持续提升趋势,进一步证实了这种方法的有效性。
QwQ-32B已开源,引领大模型新范式
目前,QwQ-32B已在Hugging Face和ModelScope平台开源,采用Apache 2.0开源协议。用户还可以通过Qwen Chat直接体验这款强大的推理模型。
阿里Qwen团队表示,QwQ-32B只是他们在大规模强化学习增强推理能力方面迈出的第一步。未来,团队将继续致力于将更强大的基础模型与规模化计算资源相结合,并积极探索智能体与RL的集成,以实现长时推理,目标是通过对推理时间的扩展来释放更高的智能。
随着模型参数规模的增长已经进入瓶颈期,如何在现有参数规模下进一步提升模型能力成为业界关注焦点。QwQ-32B的突破或将引领新一轮AI技术发展方向,进一步推动从“大力出奇迹”向“精巧出智慧”的范式转变。
对此,科技自媒体数字生命卡兹克感叹道:
- 这波QwQ-32B开源的意义,还是非常强的。它用实力证明RLHF路线还能玩出花,打破了一些人对GPT4.5撞墙后的过度悲观。用中等规模却拿到高级性能,给开源界注入了强大信心,你也不必搞那种天价设备和超大规模,也有机会跟国际巨头同场竞技。QwQ-32B的发布与阿里近期宣布的AI战略高度一致。据报道,阿里集团计划在未来三年投入超过3800亿元建设云和AI硬件基础设施,总投入将超过过去十年总和。
此前,阿里自研的“深度思考”推理模型已在夸克AI搜索平台上线,成为国内少数没有接入DeepSeek的大体量C端AI应用。
在基础模型层面,阿里通义大模型家族已跻身全球顶尖开源模型行列。有知情人士透露,“更大规模的模型也将陆续接入夸克”。