字节跳动全新数字人模型OmniHuman即将登场!一图一声,轻松生成个性化视频!
数字人模型OmniHuman:点燃你的虚拟生活!
2月7日最新消息显示,抖音集团旗下的图片视频处理工具即梦AI在其官方社交媒体平台上发布了一则预告片,宣布推出全新功能。
视频显示,新功能采用了一种名为OmniHuman的全新多模态视频生成模型,这使得用户只需上传一张图片和一段音频,便能生成一段生动的AI视频。这一技术的进步无疑为提升AI短片的制作效率和质量开辟了新的道路。它不仅简化了创作过程,还降低了非专业人员进入视频创作领域的门槛。未来,随着这种技术的进一步发展和完善,我们有理由期待更多高质量、个性化的视频内容涌现出来。这不仅是技术上的突破,更是对创意表达方式的一次革新。
OmniHuman技术官网信息表明,这是由字节跳动自主研发的闭源模型,能够处理肖像、半身以及全身等多种尺寸的图片输入,并依据输入的音频,在视频中使人物生成相应的动作,涵盖演讲、唱歌、乐器演奏及移动等多个方面。
针对人物视频生成过程中普遍存在的手势失真问题,我们提出的方法相较于现有技术有了明显的提升。
此外,对于动漫、3D卡通等非真人图像的输入,该技术的表现同样优异,生成的视频能够维持特定的艺术风格和原有的动作模式。
从技术首页展示的演示效果来看,OmniHuman的生成效果已相当自然。为了避免该技术被滥用,字节跳动的技术团队在首页上明确指出,OmniHuman将不对外开放下载。
即梦AI的相关负责人表示,该模型目前表现良好,但在生成与影视级视频相媲美的内容方面仍有改进的空间。
其支持的多模态视频生成功能将在即梦上以小范围内的测试形式进行调优,并逐渐对外开放。
该负责人还提到,即墨平台将会为这一功能配备严密的安全审查机制,并且在生成的视频中标注水印以示提醒,从而确保人工智能技术发挥正面、积极的作用,帮助视频制作者更好地展现他们的创意和想象力。