《阿里发布全新开源多模态模型Qwen2.5-VL-32B:聚焦视觉与语言处理,数学推理能力显著 - 潮涌资讯》

admin72025-03-25 09:26:54

在DeepSeek-V3更新之夜,阿里通义千问Qwen再次携手梦幻联动,重磅发布了全新版本——Qwen2.5-VL-32B-Instruct。在此之前,开源家族的视觉语言模型Qwen2.5-VL已涵盖3B、7B和72B三种尺寸。

此次发布的32B版本在保持尺寸优势的同时,进一步提升了性能,并支持本地运行。经过强化学习优化,该模型在以下三个方面实现了显著改进:

  • 回答更贴近人类偏好
  • 数学推理能力大幅增强
  • 在图像解析、内容识别以及视觉逻辑推导等任务中,展现出更高的准确性和更精细的分析能力

与其他近期开源模型如Mistral-Small-3.1-24B、Gemma-3-27B-IT相比,Qwen2.5-VL-32B在纯文本处理能力上也达到了行业领先水平。在多个基准测试中,其表现甚至超越了72B版本。

以一张交通指示牌照片为例,Qwen2.5-VL-32B能够进行如下精准的图像理解和推理:

“我正在这条路上驾驶一辆大卡车,现在12点了。我能在13点之前到达110公里远的地方吗?”

模型首先分析时间、距离和卡车限速,然后逐步推理出正确答案。

现在,Qwen2.5-VL-32B已开源,欢迎各位前往实测体验。

Qwen2.5-VL-32B更多表现示例

官方技术博客中也展示了更多Qwen2.5-VL-32B的精彩表现。例如,在数学推理方面,模型对几何体分析同样游刃有余:

“先分析问题,然后分四个步骤推理出正确答案。”

此外,模型还能解决复杂难题,并能够归纳出构造规律:

“这种复杂难题也能轻松解决。”

在图片理解方面,Qwen2.5-VL-32B同样表现出色:

“这种图片理解更是不在话下。”

甚至能够进行多轮深度提问:

“多轮深度提问也能轻松应对。”

模型开源,已能实测

现在,阿里已将Qwen2.5-VL-32B-Instruct模型放置在Hugging Face上。您可以在Qwen Chat上直接体验Qwen2.5-VL-32B,感兴趣的朋友不妨试试。

动作快的网友已经开始在MLX Community上运行该模型,而在Hacker News上,网友们也对DeepSeek和Qwen的举动进行了新一轮的热烈讨论。许多网友表示:

“开源赢了,奥尔特曼错了。”

值得一提的是,春节期间,DeepSeek与阿里通义千问Qwen多次几乎同时发布新模型,这一次也不例外。杭州,原来真的是商量着一起发布新模型?

参考链接

本文来自微信公众号“量子位”(ID:QbitAI),作者:西风,原标题《32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强》。