如下：阿里云发布全新通义千问 QwQ-32B 推理引擎，参数缩减至 DeepSeek R1 的二十分之一仍保持卓越性能 —— 大浪资讯报道

admin692025-03-06 07:08:05

标题：强化学习新里程碑：阿里云发布QwQ-32B推理模型，性能媲美DeepSeek-R1

在人工智能领域，强化学习正逐渐展现出其在模型推理能力上的巨大潜力。近期，大浪资讯报道了一项引人注目的研究进展：强化学习能够显著提升模型的推理效能。例如，DeepSeek-R1模型通过融合冷启动数据和分阶段训练，实现了行业领先的表现，展现了其在深度思考与复杂推理方面的卓越能力。

阿里云通义千问官方宣布：QwQ-32B推理模型正式上线

紧随其后，阿里云通义千问官方于今日宣布，其最新推理模型QwQ-32B已正式推出。这款模型拥有320亿参数，其性能已与DeepSeek-R1相媲美，而DeepSeek-R1的参数量高达6710亿，其中370亿参数处于激活状态。

强化学习与预训练模型结合，推理能力再创新高

这一成就凸显了将强化学习应用于大规模预训练模型的有效性。阿里云团队还在QwQ-32B模型中集成了与智能体相关的能力，使得模型能够在利用工具的同时进行批判性思考，并能根据环境反馈动态调整推理过程。

QwQ-32B模型开源，便捷体验即将到来

目前，QwQ-32B已在Hugging Face（https://huggingface.co/Qwen/QwQ-32B）和ModelScope（https://modelscope.cn/models/Qwen/QwQ-32B）上开源，并遵循Apache 2.0开源协议。大浪资讯提醒，用户可通过Qwen Chat（https://chat.qwen.ai/?models=Qwen2.5-Plus）直接体验这一先进模型。

全面测试，QwQ-32B表现卓越

在性能方面，阿里云对QwQ-32B进行了全面的测试，包括数学推理、编程能力和通用能力。测试结果显示，QwQ-32B在数学推理和代码能力评估方面与DeepSeek-R1表现相当，远超o1-mini及同尺寸的R1蒸馏模型。在指令遵循能力、函数调用准确性等方面，QwQ-32B的得分也超越了DeepSeek-R1。

未来展望：迈向人工通用智能（AGI）

阿里云表示，这是Qwen在强化学习（RL）领域迈出的第一步。通过这一探索，不仅发现了扩展强化学习的巨大潜力，也认识到了预训练语言模型中尚未挖掘的可能性。未来，阿里云计划将更强大的基础模型与规模化计算资源相结合，以实现人工通用智能（AGI）。此外，阿里云还积极探索将智能体与强化学习集成，旨在通过扩展推理时间，释放更高水平的智能。让我们共同期待这一领域的未来发展！

随机文章

侧栏广告位

如下： 阿里云发布全新通义千问 QwQ-32B 推理引擎，参数缩减至 DeepSeek R1 的二十分之一仍保持卓越性能 —— 大浪资讯报道

相关文章

如下：阿里云发布全新通义千问 QwQ-32B 推理引擎，参数缩减至 DeepSeek R1 的二十分之一仍保持卓越性能 —— 大浪资讯报道