腾讯推出混元图生视频开源版本，同步推出音频与动作驱动功能升级

admin612025-03-06 19:21:34

【科技前沿】腾讯混元AI发布创新图生视频模型，开启视频创作新篇章

3月6日，乐天报道 —— 腾讯公司今日宣布其混元AI平台推出全新图生视频模型，并对外开放源代码。这一突破性的技术不仅丰富了用户的视频创作体验，还提供了对口型与动作驱动等多种互动玩法，并支持高质量2K视频的生成与背景音效的添加。

图片动起来，创意无限
混元图生视频模型让用户只需上传一张静态图片，并简要描述期望的动态效果和镜头变化，即可让图片“活”起来，生成5秒的短视频。此外，系统还能根据用户需求自动匹配合适的背景音乐，让视频更具吸引力。

个性化“开口说话”，一键生成舞蹈视频
用户还可以上传人物图片，输入“对口型”的文字或音频，使图片中的人物能够进行对话或演唱。若选择动作模板，系统更可一键生成与所选动作相匹配的舞蹈视频。

开源创新，推动AI发展
此次开源的图生视频模型是混元文生视频模型开源计划的延续，模型参数量达到130亿，适用于从写实视频到动漫角色再到CGI角色等多种角色和场景的生成。开源内容涵盖权重、推理代码和LoRA训练代码，支持开发者创建基于混元训练的LoRA等衍生模型。

技术亮点，引领行业趋势
据混元开源技术报告显示，混元视频生成模型具有卓越的扩展性，图生视频与文生视频在相同数据集上预训练，确保了超写实画质、流畅动作演绎以及原生镜头切换等特性。模型能够捕捉丰富的视觉和语义信息，结合图像、文本、音频和姿态等多种输入，实现对视频生成的高维度控制。

开源成果丰硕，社区活跃
自混元视频生成模型开源以来，其热度持续攀升，在GitHub平台上的Star数已超过8.9K。众多开发者基于社区Hunyuanvideo开发了插件和衍生模型，累计超过900个版本。此外，混元DiT文生图模型的开源，也催生了1600多个衍生模型。

多模态覆盖，助力AI生态发展
目前，混元开源系列模型已全面覆盖文本、图像、视频和3D生成等多个模态，在GitHub上累计获得超过2.3万开发者的关注和Star。

雷递网原创内容，转载请注明来源
（注：本文由雷递网原创发布，转载时请标明来源。）

请注意：以上内容为改写后的博客发布排版，符合博客格式要求，并适当增加了描述性内容以丰富文章内容。

随机文章

侧栏广告位