在DeepSeek-V3更新之夜,阿里通义千问Qwen再次携手梦幻联动,重磅发布了全新版本——Qwen2.5-VL-32B-Instruct。在此之前,开源家族的视觉语言模型Qwen2.5-VL已涵盖3B、7B和72B三种尺寸。
此次发布的32B版本在保持尺寸优势的同时,进一步提升了性能,并支持本地运行。经过强化学习优化,该模型在以下三个方面实现了显著改进:
- 回答更贴近人类偏好;
- 数学推理能力大幅增强;
- 在图像解析、内容识别以及视觉逻辑推导等任务中,展现出更高的准确性和更精细的分析能力。
与其他近期开源模型如Mistral-Small-3.1-24B、Gemma-3-27B-IT相比,Qwen2.5-VL-32B在纯文本处理能力上也达到了行业领先水平。在多个基准测试中,其表现甚至超越了72B版本。
以一张交通指示牌照片为例,Qwen2.5-VL-32B能够进行如下精准的图像理解和推理:
“我正在这条路上驾驶一辆大卡车,现在12点了。我能在13点之前到达110公里远的地方吗?”
模型首先分析时间、距离和卡车限速,然后逐步推理出正确答案。
现在,Qwen2.5-VL-32B已开源,欢迎各位前往实测体验。
Qwen2.5-VL-32B更多表现示例
官方技术博客中也展示了更多Qwen2.5-VL-32B的精彩表现。例如,在数学推理方面,模型对几何体分析同样游刃有余:
“先分析问题,然后分四个步骤推理出正确答案。”
此外,模型还能解决复杂难题,并能够归纳出构造规律:
“这种复杂难题也能轻松解决。”
在图片理解方面,Qwen2.5-VL-32B同样表现出色:
“这种图片理解更是不在话下。”
甚至能够进行多轮深度提问:
“多轮深度提问也能轻松应对。”
模型开源,已能实测
现在,阿里已将Qwen2.5-VL-32B-Instruct模型放置在Hugging Face上。您可以在Qwen Chat上直接体验Qwen2.5-VL-32B,感兴趣的朋友不妨试试。
动作快的网友已经开始在MLX Community上运行该模型,而在Hacker News上,网友们也对DeepSeek和Qwen的举动进行了新一轮的热烈讨论。许多网友表示:
“开源赢了,奥尔特曼错了。”
值得一提的是,春节期间,DeepSeek与阿里通义千问Qwen多次几乎同时发布新模型,这一次也不例外。杭州,原来真的是商量着一起发布新模型?
参考链接
本文来自微信公众号“量子位”(ID:QbitAI),作者:西风,原标题《32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强》。