【科技前沿】腾讯混元AI发布创新图生视频模型,开启视频创作新篇章
3月6日,乐天报道 —— 腾讯公司今日宣布其混元AI平台推出全新图生视频模型,并对外开放源代码。这一突破性的技术不仅丰富了用户的视频创作体验,还提供了对口型与动作驱动等多种互动玩法,并支持高质量2K视频的生成与背景音效的添加。
图片动起来,创意无限
混元图生视频模型让用户只需上传一张静态图片,并简要描述期望的动态效果和镜头变化,即可让图片“活”起来,生成5秒的短视频。此外,系统还能根据用户需求自动匹配合适的背景音乐,让视频更具吸引力。
个性化“开口说话”,一键生成舞蹈视频
用户还可以上传人物图片,输入“对口型”的文字或音频,使图片中的人物能够进行对话或演唱。若选择动作模板,系统更可一键生成与所选动作相匹配的舞蹈视频。
开源创新,推动AI发展
此次开源的图生视频模型是混元文生视频模型开源计划的延续,模型参数量达到130亿,适用于从写实视频到动漫角色再到CGI角色等多种角色和场景的生成。开源内容涵盖权重、推理代码和LoRA训练代码,支持开发者创建基于混元训练的LoRA等衍生模型。
技术亮点,引领行业趋势
据混元开源技术报告显示,混元视频生成模型具有卓越的扩展性,图生视频与文生视频在相同数据集上预训练,确保了超写实画质、流畅动作演绎以及原生镜头切换等特性。模型能够捕捉丰富的视觉和语义信息,结合图像、文本、音频和姿态等多种输入,实现对视频生成的高维度控制。
开源成果丰硕,社区活跃
自混元视频生成模型开源以来,其热度持续攀升,在GitHub平台上的Star数已超过8.9K。众多开发者基于社区Hunyuanvideo开发了插件和衍生模型,累计超过900个版本。此外,混元DiT文生图模型的开源,也催生了1600多个衍生模型。
多模态覆盖,助力AI生态发展
目前,混元开源系列模型已全面覆盖文本、图像、视频和3D生成等多个模态,在GitHub上累计获得超过2.3万开发者的关注和Star。
雷递网原创内容,转载请注明来源
(注:本文由雷递网原创发布,转载时请标明来源。)
请注意:以上内容为改写后的博客发布排版,符合博客格式要求,并适当增加了描述性内容以丰富文章内容。