数字人新潮登场,字节全新OmniHuman模型即将亮相
数字人重塑未来,OmniHuman引领全新时代
近期,即梦AI在官方社交平台上发布了一段关于新功能的预告视频。视频展示了全新的多模态视频生成技术OmniHuman的应用。用户只需提供一张图片和一段音频,就能生成一段逼真的AI视频,这有望大幅提高AI短片的制作效率和质量。
图片来自即梦AI视频号内容截图
OmniHuman技术主页信息显示,这是由字节跳动自主研发的一款闭源模型。它能够支持从肖像到全身的各种尺寸图片输入,并且可以根据输入的音频,使图像中的人物生成与音频相匹配的动作,比如演讲、唱歌、乐器演奏以及移动等。在处理人物视频生成时,OmniHuman对于常见问题如手势崩坏的情况,比现有的方法有了明显的改进。此外,对于动漫、3D卡通等非真实人物图片输入的支持效果也相当不错,生成的视频可以保持特定的风格和原有的运动模式。 我对这一技术的发展感到非常兴奋。随着人工智能技术的进步,OmniHuman这样的模型无疑会极大地丰富数字内容创作的可能性。它不仅为创作者提供了新的工具,还可能在未来推动娱乐产业的发展,尤其是在虚拟偶像和动画制作领域。同时,这项技术也引发了我们对未来数字内容生成方式的思考,以及如何平衡技术创新与版权保护的问题。
根据技术主页展示的演示效果来看,OmniHuman的生成效果确实达到了相当高的自然度。为了确保该技术不被滥用,字节跳动的技术团队在主页上明确表示,OmniHuman平台不会对外开放下载。 这项举措显示了技术开发者对于潜在风险的高度警惕。在当前社会,随着人工智能技术的快速发展,如何平衡技术创新与伦理道德变得尤为重要。通过限制技术的传播范围,字节跳动团队不仅展示了对用户安全的重视,也为其他企业提供了如何负责任地开发和应用新技术的范例。这不仅是对技术安全性的保障,也是对未来可能产生的社会影响的一种预防措施。
即梦AI的相关负责人表示,该模型目前表现良好,但在生成影视级真实视频方面仍有提升空间。为了优化这一多模态视频生成功能,即梦将在小范围内进行内测调优,并逐渐扩大使用范围。此外,即梦还将实施严格的安全审核机制,并在输出视频中标注水印,以确保AI的应用是正面和积极的,帮助视频创作者更好地展现他们的创意。