豆包AI视觉模型斩获全球第二,智源评测再掀科技巅峰
豆包AI视觉模型再登科技巅峰,刷新全球第二记录
数界探索
12月19日,智源研究院发布了最新一期的大模型综合及专项评测结果。在这次覆盖了国内外100多个开源和商业闭源大模型的评测中,豆包通用模型Pro在大语言模型的主观评测中获得了最高分。而在多模态模型评测中,豆包视觉理解模型位列视觉语言模型第二名,仅次于GPT-4o。此外,豆包文生图模型和豆包视频生成模型(即梦P2.0Pro)也在各自的测试中取得了全球第二的好成绩。 从这次评测结果可以看出,豆包系列模型在自然语言处理和多模态领域展现出了非常强大的实力。尤其是豆包通用模型Pro在大语言模型中的表现尤为突出,这不仅体现了其在文本理解和生成方面的卓越能力,也表明该模型在全球范围内具有较强的竞争力。同时,豆包视觉理解模型紧随GPT-4o之后,显示了其在视觉和语言结合方面也有不俗的表现。这些成就无疑为豆包团队的研发工作提供了有力的支持,也为中国人工智能技术的发展注入了新的动力。
据智源研究院介绍,大模型评测平台FlagEval联合了全国十余家高校和机构共同建设。该平台最新发布的榜单中,大语言模型的主观评测主要侧重于评估模型的中文处理能力,而多模态模型的评测则重点关注模型在图文理解和长尾视觉知识方面的表现,同时也包括文字识别以及复杂图文数据分析的能力。FlagEval大模型角斗场是一个面向用户的模型对战评测服务,能够反映不同用户对各模型的喜好程度。 这种评测方式不仅有助于推动大模型技术的发展,还为学术界和产业界提供了一个客观评价模型性能的平台。通过这样的评测,我们可以更好地了解各种模型的优势与不足,从而促进相关技术的进一步优化和完善。此外,这种多元化的评测体系也有助于发现更多潜在的应用场景,推动人工智能技术在实际应用中的落地与发展。
在大语言模型的主观评测中,豆包通用模型pro在知识运用和推理能力方面获得了最高分,其简单理解、数学能力和安全性等项目也位列前三,最终综合成绩位居第一。在FlagEval大模型角斗场榜单中,根据基于模型对战的用户投票结果,豆包通用模型pro得分排名第二,仅次于OpenAI的o1-mini。
在多模态模型评测榜单中,GPT-4o在视觉语言模型中依然保持领先位置,而豆包视觉理解模型紧随其后。尤其值得注意的是,在中文的通用知识和文字识别领域,豆包的表现尤为突出,显示出相较于国外同类模型具有明显的优势。这表明在特定的语言环境中,国产模型能够更好地理解和处理复杂的语义信息。 在文生图测试中,混元和豆包依旧占据了排行榜的前两位,显示了这两款模型在图像生成方面的卓越能力。而在文生视频测试中,国产模型的表现更加亮眼,可灵1.5高品质版、即梦P2.0pro、爱诗科技PixVersev3以及海螺AI均位于前列。这一结果不仅体现了国内在多模态技术上的进步,也反映了国产模型在应对复杂应用场景时的强大适应性和创新能力。这些成就为未来人工智能技术的发展提供了强有力的支持,同时也增强了我们在全球科技竞争中的地位。
据悉,豆包视觉理解模型在最近的火山引擎Force大会上首次亮相,现已向企业客户开放使用。火山引擎方面指出,豆包大模型凭借算法、工程及软硬件结合的技术革新,显著降低了使用成本,使每一家企业都能够负担得起,从而促进AI技术的普及与应用发展。