《阿里巴巴推出全新开源全场景大模型Qwen2.5：实现多模态技术突破》

admin382025-03-27 14:40:43

阿里巴巴开源全新全模态大模型Qwen2.5-Omni：AI领域的又一里程碑

大象新闻记者李莉张迪驰报道

（视频新闻）

3月27日凌晨，阿里巴巴集团宣布开源其首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B。这一创新性成果由大象新闻记者李莉和张迪驰报道，标志着阿里在人工智能领域的又一重要突破。

Qwen2.5-Omni：多模态处理，颠覆传统

Qwen2.5-Omni具备处理文本、图像、音频和视频输入的能力，并能实时生成文本和自然语音输出。在多模态融合任务的权威测评中，Qwen2.5-Omni以全面领先的表现刷新了业界纪录，超越了Google的Gemini-1.5-Pro等同类模型，成为全球性能最强大的全模态大模型。

创新架构，提升认知能力

Qwen2.5-Omni采用通义团队首创的Thinker-Talker双核架构和TMRoPE位置编码算法，构建了类似于人脑和发声器的协同端到端架构。这种架构通过实时流式处理，使模型能统一感知所有模态信息，并高效完成语义理解和语音生成。其创新性的位置嵌入技术还实现了音视频时序对齐，使模型能以接近人类的多感官方式立体认知世界，甚至能在交互中识别情绪，为复杂任务提供更智能、自然的反馈和决策支持。

跨模态优势，突破行业门槛

在同等规模的单模态权威基准测试中，Qwen2.5-Omni展现出卓越的跨模态优势，其语音理解和图片/视频解析能力均超越了专业单模态模型。值得注意的是，该模型仅以7B参数规模实现了这一突破，大幅降低了全模态大模型的产业应用门槛。开发者可以免费下载并商用，手机等终端设备也能轻松部署运行。

开源与体验，引领AI未来

目前，Qwen2.5-Omni已在魔搭社区和Hugging Face平台开源，用户还可以通过Qwen Chat直接体验其多模态交互能力。这一举措不仅加速了AI技术的普及和进步，也为未来的AI发展指明了方向。

以上改写保留了原文的核心信息，同时以更流畅和易于理解的叙述方式呈现，符合博客发布的排版要求。

算法模态大模型 omni qwen 云计算费用阿里巴巴集团"/>

随机文章

侧栏广告位