《阿里巴巴推出全新开源全场景大模型Qwen2.5:实现多模态技术突破》

admin92025-03-27 14:40:43

阿里巴巴开源全新全模态大模型Qwen2.5-Omni:AI领域的又一里程碑

大象新闻记者 李莉 张迪驰 报道

(视频新闻

3月27日凌晨,阿里巴巴集团宣布开源其首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B。这一创新性成果由大象新闻记者李莉和张迪驰报道,标志着阿里在人工智能领域的又一重要突破。

Qwen2.5-Omni:多模态处理,颠覆传统

Qwen2.5-Omni具备处理文本、图像、音频和视频输入的能力,并能实时生成文本和自然语音输出。在多模态融合任务的权威测评中,Qwen2.5-Omni以全面领先的表现刷新了业界纪录,超越了Google的Gemini-1.5-Pro等同类模型,成为全球性能最强大的全模态大模型。

创新架构,提升认知能力

Qwen2.5-Omni采用通义团队首创的Thinker-Talker双核架构和TMRoPE位置编码算法,构建了类似于人脑和发声器的协同端到端架构。这种架构通过实时流式处理,使模型能统一感知所有模态信息,并高效完成语义理解和语音生成。其创新性的位置嵌入技术还实现了音视频时序对齐,使模型能以接近人类的多感官方式立体认知世界,甚至能在交互中识别情绪,为复杂任务提供更智能、自然的反馈和决策支持。

跨模态优势,突破行业门槛

在同等规模的单模态权威基准测试中,Qwen2.5-Omni展现出卓越的跨模态优势,其语音理解和图片/视频解析能力均超越了专业单模态模型。值得注意的是,该模型仅以7B参数规模实现了这一突破,大幅降低了全模态大模型的产业应用门槛。开发者可以免费下载并商用,手机等终端设备也能轻松部署运行。

开源与体验,引领AI未来

目前,Qwen2.5-Omni已在魔搭社区和Hugging Face平台开源,用户还可以通过Qwen Chat直接体验其多模态交互能力。这一举措不仅加速了AI技术的普及和进步,也为未来的AI发展指明了方向。


以上改写保留了原文的核心信息,同时以更流畅和易于理解的叙述方式呈现,符合博客发布的排版要求。