《阿里发布全新开源多模态模型Qwen2.5-VL-32B：聚焦视觉与语言处理，数学推理能力显著 - 潮涌资讯》

admin192025-03-25 09:26:54

在DeepSeek-V3更新之夜，阿里通义千问Qwen再次携手梦幻联动，重磅发布了全新版本——Qwen2.5-VL-32B-Instruct。在此之前，开源家族的视觉语言模型Qwen2.5-VL已涵盖3B、7B和72B三种尺寸。

此次发布的32B版本在保持尺寸优势的同时，进一步提升了性能，并支持本地运行。经过强化学习优化，该模型在以下三个方面实现了显著改进：

与其他近期开源模型如Mistral-Small-3.1-24B、Gemma-3-27B-IT相比，Qwen2.5-VL-32B在纯文本处理能力上也达到了行业领先水平。在多个基准测试中，其表现甚至超越了72B版本。

以一张交通指示牌照片为例，Qwen2.5-VL-32B能够进行如下精准的图像理解和推理：

“我正在这条路上驾驶一辆大卡车，现在12点了。我能在13点之前到达110公里远的地方吗？”

模型首先分析时间、距离和卡车限速，然后逐步推理出正确答案。

现在，Qwen2.5-VL-32B已开源，欢迎各位前往实测体验。

官方技术博客中也展示了更多Qwen2.5-VL-32B的精彩表现。例如，在数学推理方面，模型对几何体分析同样游刃有余：

“先分析问题，然后分四个步骤推理出正确答案。”

此外，模型还能解决复杂难题，并能够归纳出构造规律：

“这种复杂难题也能轻松解决。”

在图片理解方面，Qwen2.5-VL-32B同样表现出色：

“这种图片理解更是不在话下。”

甚至能够进行多轮深度提问：

“多轮深度提问也能轻松应对。”

现在，阿里已将Qwen2.5-VL-32B-Instruct模型放置在Hugging Face上。您可以在Qwen Chat上直接体验Qwen2.5-VL-32B，感兴趣的朋友不妨试试。

动作快的网友已经开始在MLX Community上运行该模型，而在Hacker News上，网友们也对DeepSeek和Qwen的举动进行了新一轮的热烈讨论。许多网友表示：

“开源赢了，奥尔特曼错了。”

值得一提的是，春节期间，DeepSeek与阿里通义千问Qwen多次几乎同时发布新模型，这一次也不例外。杭州，原来真的是商量着一起发布新模型？

本文来自微信公众号“量子位”（ID：QbitAI），作者：西风，原标题《32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强》。

热门精选

侧栏广告位