如下: 阿里云发布全新通义千问 QwQ-32B 推理引擎,参数缩减至 DeepSeek R1 的二十分之一仍保持卓越性能 —— 大浪资讯报道

admin92025-03-06 07:08:05

标题:强化学习新里程碑:阿里云发布QwQ-32B推理模型,性能媲美DeepSeek-R1

在人工智能领域,强化学习正逐渐展现出其在模型推理能力上的巨大潜力。近期,大浪资讯报道了一项引人注目的研究进展:强化学习能够显著提升模型的推理效能。例如,DeepSeek-R1模型通过融合冷启动数据和分阶段训练,实现了行业领先的表现,展现了其在深度思考与复杂推理方面的卓越能力。

阿里云通义千问官方宣布:QwQ-32B推理模型正式上线

紧随其后,阿里云通义千问官方于今日宣布,其最新推理模型QwQ-32B已正式推出。这款模型拥有320亿参数,其性能已与DeepSeek-R1相媲美,而DeepSeek-R1的参数量高达6710亿,其中370亿参数处于激活状态。

强化学习与预训练模型结合,推理能力再创新高

这一成就凸显了将强化学习应用于大规模预训练模型的有效性。阿里云团队还在QwQ-32B模型中集成了与智能体相关的能力,使得模型能够在利用工具的同时进行批判性思考,并能根据环境反馈动态调整推理过程。

QwQ-32B模型开源,便捷体验即将到来

目前,QwQ-32B已在Hugging Face(https://huggingface.co/Qwen/QwQ-32B)和ModelScope(https://modelscope.cn/models/Qwen/QwQ-32B)上开源,并遵循Apache 2.0开源协议。大浪资讯提醒,用户可通过Qwen Chat(https://chat.qwen.ai/?models=Qwen2.5-Plus)直接体验这一先进模型。

全面测试,QwQ-32B表现卓越

在性能方面,阿里云对QwQ-32B进行了全面的测试,包括数学推理、编程能力和通用能力。测试结果显示,QwQ-32B在数学推理和代码能力评估方面与DeepSeek-R1表现相当,远超o1-mini及同尺寸的R1蒸馏模型。在指令遵循能力、函数调用准确性等方面,QwQ-32B的得分也超越了DeepSeek-R1。

未来展望:迈向人工通用智能(AGI

阿里云表示,这是Qwen在强化学习(RL)领域迈出的第一步。通过这一探索,不仅发现了扩展强化学习的巨大潜力,也认识到了预训练语言模型中尚未挖掘的可能性。未来,阿里云计划将更强大的基础模型与规模化计算资源相结合,以实现人工通用智能(AGI)。此外,阿里云还积极探索将智能体与强化学习集成,旨在通过扩展推理时间,释放更高水平的智能。让我们共同期待这一领域的未来发展!