腾讯推出开源的图生视频技术:一秒即可创作5秒精彩短视频,并智能匹配背景音效 - 潮涌科技动态

admin232025-03-06 16:28:17

腾讯混元引领视频技术革新:图生视频模型开源,创新功能丰富体验

大浪资讯(3月6日)—— 最新消息,腾讯混元微信公众号宣布,其最新研发的图生视频模型已对外开源,并同步推出了对口型与动作驱动等多样化玩法。此外,该模型还支持生成高质量的背景音效和2K分辨率的视频内容。

突破技术壁垒,一键实现图片动画化

基于图生视频技术,用户只需上传一张图片,并简要描述期望的动画效果及镜头调度,混元AI即可根据需求将静态图片变为生动的5秒短视频,并自动添加背景音效。更有趣的是,用户还可以上传人物图片,输入对口型文字或音频,让图片中的人物开口“说话”或“唱歌”。通过“动作驱动”功能,用户更可轻松制作个性化的舞蹈视频。

官方网站开放体验,API接口助力企业及开发者

目前,用户可以通过混元AI视频官网(https://video.hunyuan.tencent.com/)亲自体验这一创新技术。对于企业和开发者来说,腾讯云提供了API接口的申请,以便更深入地利用混元AI视频的强大功能。

开源模型拓展无限可能,技术报告揭示更多细节

此次开源的图生视频模型,是混元文生视频模型开源项目的延续。该模型参数总量保持130亿,适用于多种角色和场景,包括写实视频制作、动漫角色以及CGI角色制作。开源内容涵盖权重、推理代码和LoRA训练代码,支持开发者基于混元训练专属LoRA等衍生模型。开发者可在Github、HuggingFace等主流社区下载并体验。

技术报告解析:多维度控制,打造超写实画质

混元开源技术报告揭示了视频生成模型的灵活扩展性。在保持超写实画质、流畅动作演绎、原生镜头切换等特性的同时,模型能够捕捉丰富的视觉和语义信息,并结合图像、文本、音频和姿态等多种输入条件,实现对生成视频的多维度控制。

混元开源系列模型,引领模态生成新潮流

目前,混元开源系列模型已全面覆盖文本、图像、视频和3D生成等多个模态,在Github上累计获得超过2.3万开发者的关注和star。

下载链接


注: 以上内容为模拟改写,不代表真实新闻报道。