达摩院发布 VideoLLaMA3:7B 大小视频理解模型问世,轻量级 SOTA 网络震撼发布
【轻量级视频理解模型 VideoLLaMA3:7B 引领新潮流,SOTA 网络震撼发布】
近日,达摩院推出了一款名为VideoLLaMA3的全新视频理解模型,该模型在7B大小的基础上达到了新的SOTA(State of the Art)水平。与以往不同的是,VideoLLaMA3是以图像为中心构建的新一代多模态视频-语言模型。 这款模型的发布无疑为视频处理领域注入了新的活力。达摩院作为国内顶尖的研究机构,在人工智能领域的不断探索和创新令人瞩目。VideoLLaMA3不仅在技术上有所突破,而且其独特的设计思路也为未来多模态模型的发展提供了新的方向。以图像为中心的设计理念,使得模型能够更有效地捕捉和理解视频中的关键信息,这在视频分析、内容推荐等领域具有广泛的应用前景。未来,我们期待看到更多基于这一模型的创新应用,进一步推动视频理解和处理技术的进步。
在对VideoLLaMA3进行通用视频理解、时间推理和长视频理解这三个核心维度的评估时,它展现出了卓越的表现,超越了大多数基线模型。这一成就不仅证明了该技术在处理复杂视频内容方面的强大能力,也预示着未来在视频分析领域的重大突破。随着技术的进步,我们有理由相信VideoLLaMA3将在更多实际应用中大放异彩,为行业带来新的发展动力。
不仅如此,经过测试,VideoLLaMA3在端侧的应用表现出色,特别是在图像理解方面。这款模型不仅能够处理大量数据,还能在保持高效运行的同时提供准确的分析结果。这无疑为相关行业提供了强大的技术支持,尤其是在需要实时图像解析的领域,如智能监控和自动驾驶等。它标志着我们在人工智能技术的实际应用上又迈进了一大步,未来有望进一步提升这些系统的智能化水平和响应速度。
在涵盖文档理解、图表分析、场景文本理解、数学推理、多图像理解和常识问答等多个维度的基准测试中,该模型表现优异。特别是在InfoVQA这一领域,它不仅超越了之前的最佳成绩,还在MathVista数学推理任务上展现出了显著的优势。这种全面的能力表明,该模型在处理复杂信息和解决实际问题方面具有巨大潜力,有望为人工智能技术的发展提供强有力的支持。
VideoLLaMA3的设计理念以图片为核心,这一思想贯穿于整个模型架构及训练过程之中。
通过高质量的图片和文本数据为视频理解奠定坚实的基础,仅利用300万段视频文本数据,实现了对同等参数规模的开源模型在视频理解能力上的全面超越。
目前,VideoLLaMA 3 已经在 HuggingFace 上提供了图像、视频理解的 demo。
例如我们给一张《蒙娜丽莎的微笑》,并向 VideoLLaMA 3 提问:
Discuss the historical impact and the significance of this painting in the art world.
讨论这幅画在艺术界的历史影响和意义。
VideoLLaMA 3 的回答是这样的:
《蒙娜丽莎》是全球最知名的画作之一,同时也是艺术史上的一件重要作品。它诞生于文艺复兴时代,反映了当时对人文精神的重视以及对古典知识的重新发掘。列奥纳多·达·芬奇运用了独特的技艺,比如在色彩与明暗之间采用柔和过渡的“晕涂”技法,为这幅画增添了一种神秘感。数百年来,《蒙娜丽莎》一直是引人入胜的话题,激发了无数的解读与分析。它已经成为西方文化的象征,代表着艺术达到的最高成就,并展示了视觉艺术跨越时空持续吸引观众的魅力。
再来看下视频理解的 demo,我们的问题是:
What is unusual in the video?
视频中有什么不寻常之处?
对此,VideoLLaMA 3 表示:
这段视频的独特之处在于,它展示了一只典型的野生动物——熊,正在从事一项类似人类的活动,例如在桌子上享用寿司。
VideoLLaMA 3 回答可谓是非常简约且精准了。
这款演示在Hugging Face平台上的使用极为便捷,用户仅需上传图片或视频,并提出相关问题即可。这种直观且易于操作的设计不仅大幅降低了技术门槛,也让更多非专业用户能够轻松上手。对于那些希望快速获取信息或进行内容分析的用户来说,这样的工具无疑是一个福音。它简化了复杂的技术流程,使得图像和视频中的信息提取变得简单快捷,真正实现了科技服务于大众的目标。
VideoLLaMA 3 的关键,在于它是一种以图像为中心的训练范式。
这种范式主要包含四个关键内容:
视觉编码器适配:让视觉编码器能处理动态分辨率图像,用不同场景图像提升其性能,使其能捕捉精细视觉细节。
视觉语言对齐技术通过运用丰富的图像文本数据来加强多模态理解,这无疑是一个值得关注的重要进展。该技术不仅能够提升模型在空间推理方面的能力,还能确保其语言处理能力不受影响。这种双管齐下的方法为机器理解和生成人类语言提供了新的可能性。尤其是在当前信息爆炸的时代,如何有效提取和理解多媒体中的关键信息变得尤为重要。这一技术的发展无疑为未来的智能系统打下了坚实的基础,使其能够更好地服务于人类社会,提高工作效率,甚至在教育、医疗等领域带来革命性的变化。
多任务微调:通过使用图像文本问答数据和视频字幕数据对模型进行微调,可以显著提升其在遵循自然语言指令和多模态理解方面的能力,从而更好地为视频理解任务做好准备。 这种做法无疑是一个值得肯定的进步。通过引入更多的数据源,如图像文本问答和视频字幕,不仅能够使模型更全面地理解和处理复杂信息,还能提高其在实际应用中的泛化能力和灵活性。这对于未来的人工智能发展具有重要意义,特别是在处理多媒体内容时,能够提供更加准确和丰富的分析结果。
视频微调:提升模型在视频理解和问答方面的性能,训练数据涵盖各类视频、图像及文本资料。
从框架设计来看,主要包含两大内容。
首先是任意分辨率视觉标记化(AVT)。
这种方法超越了传统固定分辨率的局限性,通过使用2D-RoPE代替绝对位置嵌入,使视觉编码器能够处理各种分辨率的图像和视频,从而保留更多的细节信息。
其次是差分帧剪枝器(DiffFP)。
针对视频数据冗余问题,通过对比连续帧间像素在空间上的1-范数距离,去除多余的视频标记,从而提升视频处理速度,降低计算资源的需求。
除了框架之外,高质量数据也对 VideoLLaMA 3 的性能起到了关键作用。
首先是高质量图像重新标注数据集 VL3Syn7M 的构建。
为了给VideoLLaMA3提供高质量的训练数据,研究团队精心构建了一个名为VL3Syn7M的数据集,该数据集包含了700万张图像及其对应的字幕。这一举措无疑为模型在多模态理解方面的能力提升奠定了坚实的基础。通过这样大规模的数据集,我们有望看到一个在视觉和语言理解上更为精准和高效的AI系统问世。这不仅展示了当前人工智能技术在跨领域融合上的巨大进步,也预示着未来可能在视频分析、智能搜索以及内容生成等多个领域带来革命性的变化。
Aspect Ratio Filtering(长宽比过滤):图像长宽比可能影响模型特征提取。像一些长宽比极端的图像,过宽或过长,会使模型在处理时产生偏差。通过过滤,确保数据集中图像长宽比处于典型范围,为后续准确的特征提取奠定基础。
AestheticScoreFiltering(美学评分过滤):通过应用美学评分模型来评估图像的视觉品质,剔除那些得分较低的图片。此步骤有助于摒弃视觉效果差、构图欠佳的图像,降低噪音干扰,确保模型所学的图像内容和描述质量更优,从而增强模型生成高质量描述的能力。
使用BLIP2模型为图像生成初步字幕后,再利用CLIP模型来计算文本与图像之间的相似度,并筛选掉相似度较低的图像。这样可以保证剩下的图像内容与描述高度相关,从而使得模型所学到的图文对更加具有可解释性和代表性。
视觉特征聚类技术:采用CLIP视觉模型抽取图片的视觉特征,再利用KNN(K-最近邻)算法进行聚类分析,在每一个聚类中心选择固定数量的图像。这种方法既能确保数据集的多样性,又能保持语义类别分布的均衡,使模型能够接触到各种视觉信息,从而提升其泛化能力。
经过过滤和聚类后的图像需要进行重新标注。简短的字幕是由InternVL2-8B生成的,而详细的字幕则由InternVL2-26B来完成。这一过程在不同阶段使用了不同类型字幕,以满足模型多样化的学习需求。 这种分阶段使用不同模型生成字幕的方法,不仅能够提高图像处理的效率,还能够确保信息的准确性和丰富性。通过这样的技术手段,我们可以更好地理解和利用海量图像数据,为后续的分析和应用提供强有力的支持。这无疑是一个值得肯定的进步,体现了技术在提升数据处理能力方面的巨大潜力。
其次是各训练阶段的数据混合。
在VideoLLaMA3的不同训练阶段,数据混合策略为模型提供了丰富多样的学习场景。这种策略不仅有助于提升模型在各种复杂情况下的适应能力,还确保了训练过程中的多样性。此外,团队采用统一的数据组织形式,这有助于在不同阶段之间实现平稳过渡,从而提高整体训练效率。 这样的设计思路无疑体现了研发团队对于细节的严谨把控和对技术进步的不懈追求。通过精心规划的数据管理和使用策略,VideoLLaMA3有望在实际应用中展现出更出色的表现。
视觉编码器优化(Visual Encoder Optimization):该步骤致力于提升模型对复杂场景的分析能力和特征提取效率,通过结合场景图片、文档识别图以及少量的场景文本图像进行训练,以增强其在多样化环境下的适应性。
场景图像来源多样,如VL3-Syn7M-short等,其中Object365和SA-1B数据集的加入丰富了数据的多样性;场景文本图像来源于BLIP3-OCR,其包含的文本内容和简洁的重新标注均被用作字幕;文档图像则选自pdfa-eng-wds和idl-wds,文档中的文本内容按照阅读顺序也被作为图像的字幕。
在视觉语言对齐这一关键阶段,我们通过高质量的数据来微调模型,这些数据包括了场景图像、场景文本图像、文档、图表、细粒度数据以及大量的高质量纯文本数据。这种全面的数据覆盖确保了模型能够更准确地理解和处理各种类型的信息。我认为这种方法不仅有助于提高模型的泛化能力,还能够更好地适应不同的应用场景,从而为未来的人工智能技术发展奠定坚实的基础。
场景图像整合多个数据集并重新标注;场景文本图像包含多种中英文数据集,并对 LAION 数据集中图像筛选形成 Laion-OCR 数据集,其字幕包含文本内容和文本位置的边界框注释。
在处理文档图像时,除了常见的数据集外,我们还加入了手写和复杂文档的数据集。虽然图表数据量不大,但它们均来自Chart-to-Text数据集。此外,细粒度数据集,包括区域字幕数据和带框字幕数据,也得到了补充,这有助于提升模型对图像细节的理解能力。 这一举措无疑为现有模型的训练提供了更加全面和多样化的数据支持。特别是手写和复杂文档数据集的引入,能够帮助模型更好地识别和解析非标准格式的文本内容,从而提高其实际应用中的准确性和鲁棒性。同时,细粒度数据集的加入,使得模型能够在更小的图像单元上进行精确分析,这对于提高图像理解的精细程度至关重要。这些改进不仅提升了技术性能,也为未来的应用场景开辟了更多可能性。
Multi-task Fine-tuning(多任务微调):用指令跟随数据进行指令微调,数据混合覆盖多种任务。
图像数据被划分为六大类别:一般、文档、图表/图形、OCR、定位和多图像,这些类别分别针对不同的视觉理解需求。此外,还整合了大量的纯文本数据,以增强模型在处理需要结合视觉与文本输入的指令执行任务时的表现。
视频数据通过整合高质量视频字幕数据集、少量问答数据,以及VideoLLaMA2的自有数据和内部的时间定位数据,来提升模型的视频理解能力。
视频定向微调:在此阶段,我们着重增强模型对视频内容的理解能力。为此,我们从多个包含标注信息的开源视频数据集中进行收集,并通过生成特定领域的密集字幕和问答对来进一步扩充数据规模。
此外,引入流媒体视频理解和时间定位特性,并结合一定比例的纯图像和纯文本数据,以减轻模型的灾难性遗忘问题。
论文和演示地址已经公布,感兴趣的朋友们不妨去体验一下。 这款作品展示了作者在技术领域的深厚功底和创新思维,让人眼前一亮。通过实际操作,我们能更直观地感受到其研究成果的实用性和前瞻性。无论是从技术角度还是用户体验角度来看,它都具有很高的价值。希望未来能看到更多这样的创新成果,推动相关领域的发展。
论文地址:
https://arxiv.org/abs/2501.13106
GitHub 项目地址:
https://github.com/DAMO-NLP-SG/VideoLLaMA3/tree/main?tab=readme-ov-file
图像理解 demo:
https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image
视频理解 demo:
https://huggingface.co/spaces/lixin4ever/VideoLLaMA3
HuggingFace 地址:
https://huggingface.co/collections/DAMO-NLP-SG/videollama3-678cdda9281a0e32fe79af15
本文来自微信公众号:量子位(ID:QbitAI),作者:关注前沿科技