腾讯推出开源的图生视频技术：一秒即可创作5秒精彩短视频，并智能匹配背景音效 - 潮涌科技动态

admin442025-03-06 16:28:17

腾讯混元引领视频技术革新：图生视频模型开源，创新功能丰富体验

大浪资讯（3月6日）—— 最新消息，腾讯混元微信公众号宣布，其最新研发的图生视频模型已对外开源，并同步推出了对口型与动作驱动等多样化玩法。此外，该模型还支持生成高质量的背景音效和2K分辨率的视频内容。

突破技术壁垒，一键实现图片动画化

基于图生视频技术，用户只需上传一张图片，并简要描述期望的动画效果及镜头调度，混元AI即可根据需求将静态图片变为生动的5秒短视频，并自动添加背景音效。更有趣的是，用户还可以上传人物图片，输入对口型文字或音频，让图片中的人物开口“说话”或“唱歌”。通过“动作驱动”功能，用户更可轻松制作个性化的舞蹈视频。

官方网站开放体验，API接口助力企业及开发者

目前，用户可以通过混元AI视频官网（https://video.hunyuan.tencent.com/）亲自体验这一创新技术。对于企业和开发者来说，腾讯云提供了API接口的申请，以便更深入地利用混元AI视频的强大功能。

开源模型拓展无限可能，技术报告揭示更多细节

此次开源的图生视频模型，是混元文生视频模型开源项目的延续。该模型参数总量保持130亿，适用于多种角色和场景，包括写实视频制作、动漫角色以及CGI角色制作。开源内容涵盖权重、推理代码和LoRA训练代码，支持开发者基于混元训练专属LoRA等衍生模型。开发者可在Github、HuggingFace等主流社区下载并体验。

技术报告解析：多维度控制，打造超写实画质

混元开源技术报告揭示了视频生成模型的灵活扩展性。在保持超写实画质、流畅动作演绎、原生镜头切换等特性的同时，模型能够捕捉丰富的视觉和语义信息，并结合图像、文本、音频和姿态等多种输入条件，实现对生成视频的多维度控制。

混元开源系列模型，引领模态生成新潮流

目前，混元开源系列模型已全面覆盖文本、图像、视频和3D生成等多个模态，在Github上累计获得超过2.3万开发者的关注和star。

下载链接

Github： https://github.com/Tencent/HunyuanVideo-I2V
HuggingFace： https://huggingface.co/tencent/HunyuanVideo-I2V

注：以上内容为模拟改写，不代表真实新闻报道。

随机文章

侧栏广告位

腾讯推出开源的图生视频技术：一秒即可创作5秒精彩短视频，并智能匹配背景音效 - 潮涌科技动态

相关文章