失意职场人疯狂烧钱,投身短视频创作潮流
燃烧职场压力,绽放短视频梦想
数界探索
在白天,Danny是一位30多岁的白领,每天朝八晚五,在南昌的一家公司工作了七八年。目前,他仍住在公司大楼内的出租屋里,是一名尽职尽责的UI设计师。 尽管Danny的工作稳定,但长时间生活在同一座城市,从事同样的职业,难免会让人产生一些思考。在当今这个快速发展的社会里,个人的职业发展与生活节奏往往需要不断调整和创新。Danny或许可以通过学习新的技能或尝试不同的工作方式来丰富自己的职业生涯,让生活更加多彩。同时,对于那些想要在小城市扎根的人来说,Danny的故事也提供了一个参考,即如何在相对稳定的职业环境中寻找个人成长的空间。
当夜晚降临,Danny回到了自己独居的小屋,成为了一名自我造梦者——利用AI技术将自己的奇妙梦境转化为短片。他本是艺术专业出身,高中时期一直怀揣着进入知名4A广告公司从事创意视频制作的梦想。然而,工作后他却成了一名UI设计师,虽然这份工作并不完全是他所热爱的领域。在闲暇之余,Danny通过创作电商产品的创意带货短视频,试图向自己的理想职业靠近。
今年7月,Danny决定all in AIGC(人工智能生成内容)后,他看到了一场AI短片创作大赛的通知。“你不需要高昂的拍摄设备,不需要场地,不需要演员,甚至不需要配音,都可以用AI实现很多天马行空的创意。”这句话道出了当下许多创作者的心声。在技术的推动下,艺术创作的门槛被大大降低,每个人都有机会成为自己故事的导演。然而,这种便利也带来了一些新的挑战。例如,如何确保这些作品的独特性和原创性?当所有的创意都能通过AI生成时,我们是否还能区分出哪些是人类智慧的结晶,哪些又是机器算法的结果?此外,随着AI技术的普及,传统艺术行业是否会受到冲击,以及如何在这样的背景下保持艺术的价值和意义,这些都是值得深思的问题。 这样的变革不仅为创作者提供了前所未有的机遇,同时也提出了关于艺术本质的新思考。在未来,或许我们会见证一种全新的艺术形式诞生——一种融合了人类情感与机器智能的艺术。
Danny原本计划今年底离开南昌,前往上海和北京求职,但是一条AI提供的信息让他看到了新的可能:“无需离开自己所在的城市,也能实现职业发展。”
自此,Danny每晚回到自己独居的小房间,一直工作到凌晨两三点钟,使用可灵AI制作短片。为了得到几秒钟的满意镜头,他经常需要从Midjourney生成图片,再通过可灵AI生成视频,反复尝试十余次甚至二十多次,直到达到理想效果。
他以《西游记》中的白骨精为题材,创作了两集AI短剧。为了确保在不同镜头中白骨精的发型、头冠、衣服的统一性,每张图片都需要重绘数十次,甚至上百次。“这是一项极其繁重的工作,几乎让人感到崩溃。” 这种对细节近乎苛求的态度,不仅体现了创作者对于作品质量的极致追求,也反映了当前AI技术在艺术创作领域的应用挑战。一方面,AI技术为艺术创作提供了新的工具和可能性,使得创作者能够以前所未有的方式探索和表达艺术理念;另一方面,如何通过AI技术实现艺术与技术的完美融合,仍是一大难题。这位创作者的经历告诉我们,在享受AI带来的便利的同时,也需要面对由此产生的高劳动强度和技术门槛,这些都是未来需要持续探讨和解决的问题。
在AI生成图片或视频的过程中,每幅作品的效果各不相同,有时会出现变形或扭曲的现象,甚至人物的动作、表情与预期存在差异。创作者们往往需要不断调整提示词,经过多次尝试,才能从生成的作品中挑选出符合预期效果的图片或视频。这一过程被形象地称为“抽卡”。 这种“抽卡”现象不仅反映了AI技术当前阶段的一些局限性,也展示了人类创造力与AI生成工具之间的互动方式。它表明,尽管AI技术在图像生成方面取得了显著进步,但其输出结果仍需通过人的干预进行优化和调整。同时,这也为创作者提供了新的灵感来源和创作手段,使得艺术创作过程更加多样化和富有探索精神。未来随着技术的发展,我们有理由相信,AI生成的图像质量将不断提高,人机协作也将变得更加紧密和高效。
为了制作白骨精的短片,Danny抽卡一共花了五六千元。Danny对画面细节要求高,花费也比其他创作者高,别人可能抽卡几遍,但他要几十遍,找到最满意的版本。他用自己的工资来支撑制作费用,“赌的成分很大,如果流量不好,就相当于打水漂了。”
《白骨精前传》截图。图片来源:受访者提供
后来Danny用名为“怪物集”的账号,发布了《白骨精前传》短片,最后在快手和抖音的播放量一共近2000万,他在快手可灵的AI短剧大赛中获得一等奖,拿到了5万元奖金,“我终于被大家看到了。”Danny说。
AI视频作为内容形态中的“新物种”,正迅速崛起。各大模型厂商与互联网巨头纷纷加码AI视频生成技术。这一趋势不仅标志着数字内容创作方式的重大变革,也预示着未来媒体消费模式的深刻转变。随着技术的进步,AI视频生成不仅能够极大地提高内容生产的效率,还能创造出更加丰富多样的视觉体验。然而,随之而来的版权和原创性问题也不容忽视,如何在推动技术创新的同时保护创作者权益,将是未来需要重点关注的问题。 这种新型内容形态的发展无疑为内容产业带来了新的机遇与挑战。它要求行业内外的参与者们不仅要关注技术进步,还应积极探讨和建立相应的规范与标准,以确保AI视频生成的健康发展,并促进整个内容生态系统的繁荣。此外,公众对于高质量内容的需求日益增长,这也促使内容生产者不断创新,以满足市场的多样化需求。因此,AI视频不仅是技术上的革新,更是对内容产业未来发展路径的一次重要探索。
今年8月,昆仑万维昆仑万维推出AI短剧平台SkyReels。9月,字节跳动发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型。到了11月,腾讯混元也开始内测视频生成模型,又在12月把视频模型开源。
快手于9月发布了可灵大模型的1.5版本。据快手2024年第三季度财报显示,可灵AI的月活跃用户数在9月已突破150万。
如何烧钱,又如何省钱
谈及AI视频的创作,许多制作者都表示这是一笔不小的开销,但他们认为即使投入巨大,长远来看收益可观,因此仍要全力以赴。AI视频对他们而言,是事业的“第二增长曲线”和“第二春”。这些AI视频创作者多数将其作为副业,而他们的主要职业则涵盖设计、游戏开发、广告、电影导演、VR等领域。
对UI设计师Danny来说,AI圆了他的广告创意的梦。
对主业从事VR的葛老板来说,AI是事业的转机。今年40岁的葛老板在十年前从一家视频网站辞职,后来与人搭伙做VR公司,做了十年,经历了VR行业的潮涨潮落,“还在苦苦支撑”,又在当下发力AI视频。
AI的商业应用确实比VR更易于普及。相较于VR内容需要依赖Apple Vision Pro、XR眼镜等特定硬件设备,AI视频内容则能够在现有的智能手机平台上广泛传播。这种便捷性不仅降低了用户接触新技术的门槛,也为AI技术的商业化提供了更为广阔的市场空间。这表明,随着移动设备性能的不断提升,AI技术正逐步渗透到人们的日常生活中,展现出其在内容创作、社交互动等多个领域的巨大潜力。未来,随着5G、云计算等技术的发展,AI视频内容的传播效率将进一步提高,为用户带来更加丰富和多元化的体验。 这样的发展趋势不仅有利于推动相关产业的发展,同时也提示我们,在关注新兴科技的同时,也需要重视其与现有技术和基础设施的融合,以实现更高效、更广泛的普及和应用。
葛老板的AI动画短剧《胡相公》获得快手可灵AI短剧大赛的最佳创意奖,奖金两万。他的AI视频作品也给他带来了一些影视剧制作和AI文旅宣传片的商单。
AI视频的高成本支出,主要集中在一点:在AI生成的不确定性内容里,为了确保人物角色的一致性和故事情节的连贯性,需要频繁抽取角色或资源卡片。
可灵于10月底启动了人脸模型的内测,用户可以上传几段关于同一人物的动作或表情视频,每段视频时长在10到15秒之间,以此来训练出该人物的数字人模型。完成训练后,就能够生成这个数字人在各种角度和景别下的视频,同时确保人物形象不会发生变形。
创建这样一个虚拟人物模型大约需要2000点数(对于超级创作者享受折扣后需支付1000点数,相当于人民币100元)。每次利用该人物模型生成一段视频,则需要消耗约35点数(折合人民币3元多)。
AI视频创作者葛老板在使用可灵的人脸模型后发现:“如果是简单的表情,比如微笑,用眼神看你一眼,是可以的。大笑、哭泣以及过于细腻的表情演绎,就会比较吃力,表情容易不自然,可能要多次抽卡才能效果满意。”
Danny指出,当前业内常用的LoRA训练模型在处理人脸整体一致性方面已经取得了一定成效,但对更多细节如发型、发饰、妆容和服装造型等方面的还原仍存在不足。以Danny的《白骨精前传》为例,白骨精头上的银色金属发冠,在使用AI生成图片时经常会出现形态或大小不一致的问题,“几乎每张图片都需要进行几十次甚至上百次的局部重绘。”
《白骨精前传》AI短剧截图,创作者Danny几乎每张图片都要几十次上百次重绘。图片来源:受访者提供
Danny提到,制作一段5秒钟的片段往往需要抽取十几甚至二十次素材,花费一两百元。若要制作两分钟的视频,则费用会更高。他对于细节非常执着,因此在制作成本上通常会比别人高出一些。他曾为《白骨精》短片投入了五六千元,这些费用都是用自己的工资来支付的。 从这个例子可以看出,高质量的视频创作背后往往伴随着高昂的成本。尤其是在追求细节完美的情况下,每一帧画面都需要精心打磨,这不仅考验创作者的技术水平,更考验他们的经济实力。这种对细节的极致追求无疑提升了作品的艺术价值,但也让许多独立创作者面临资金压力。如何在有限的预算内实现艺术追求,成为了一个值得深思的问题。
尽管抽卡成本很高,但国产视频模型相比国外模型,已经大幅降低了价格。
对于非会员,国产视频模型如可灵、即梦为用户提供每日登录积分赠送,赋予一定的免费生成视频的额度。
在基础包月会员价条件下,使用提示词进行文生视频生成时,一个5秒片段的成本,在Runway大约需要1美元,Pika大约需要0.25美元,即梦大约需要0.4美元(约3元人民币),而可灵仅需约0.1美元(约0.9元人民币)。在成本控制方面,可灵AI已经显示出明显的优势。
尽管AI视频制作需要投入一定的资金,相较于传统的影视制作方式,AI视频在性价比方面究竟如何呢? AI视频制作的成本虽然不容小觑,但它依然展现出了相对于传统影视制作更为显著的经济优势。尤其在人力成本和时间效率上,AI技术的应用使得视频制作周期大幅缩短,同时降低了大量的人工成本。此外,AI技术还能实现高度定制化的内容创作,满足市场多样化的需求。不过,值得注意的是,高质量的AI视频制作同样需要专业的技术和创意支持,这也在一定程度上影响了其成本结构。因此,在综合考量下,AI视频制作不仅能够帮助企业节省开支,还能够提升内容生产的灵活性和响应速度,从而在竞争激烈的市场环境中获得更大的优势。
对于出身于传统电影行业的青年导演朱智立而言,相较于实际拍摄电影,AI影像技术已经显著降低了制作成本。
朱智立的AI短片《新桃花源记》入选了“工业强国·工业与科幻影像展”,讲述了一位宇航员为地球寻找新家园的故事,影片海报的画面是一位宇航员走向桃花缤纷的山洞,原图是用文生图模型Midjourney制作的,片中镜头是再用AI工具图转视频。“(如果是电影实拍),要呈现这样质感的洞,还要有桃花,肯定要制景。还需要特别大功率的灯,以及一个非常好的灯光指导,才能打出这种有层次的光效。如果实景找不到这样的洞,就需要绿幕加特效或虚拟拍摄,成本比AI生成要高得多。”
朱智立的AI短片《新桃花源记》 海报,用AI工具做出堪比电影实拍的效果。图片来源:受访者提供
影片结尾使用的音乐是由音乐生成模型Suno创作的。起初,朱智立以为AI生成的音乐会显得非常机械,但出乎他意料的是,这段配乐展现出了极为复杂的情感。“有一段旋律非常纠结,完美地表现了主角在离开桃花星时内心的矛盾情绪。当地居民对他说‘不足为外人道也’,而他却想要把这个地方公之于众。”这段配乐精准捕捉到了角色内心的挣扎与情感波动。
让朱智立感到惊讶的是,AI不仅能精准地表达出他的创意,甚至还会自主地产生新的创意,“AI还会自己添加情节。”例如,他使用图生视频技术生成了一个场景,描述一群外星居民围住了宇航员,宇航员告诉他们自己来自地球。然而,AI不仅生成了这个画面,还仿佛扮演了一部分导演的角色,增加了额外的情节——其中一个外星居民竟然拿出手机拍摄宇航员,而宇航员在讲述完毕后还与外星居民中的一个小孩子击掌庆祝。这些情节都是事先未曾预料到的。“AI非常聪明,能够为你增添一些创意,至于这些创意是否合适,你可以自行决定。”
AI短片《新桃花源记》中的镜头,AI视频模型自己“加戏”。图片来源:受访者提供
狂奔的技术,如何影响叙事
AI视频生成模型们,在技术迭代的路上,一路狂奔。
针对人物一致性的痛点,各家纷纷出招:
10月底,可灵1.5版本开始内测人脸模型。
11月,生数科技Vidu 1.5推出了多主体一致性功能,依靠通用模型能力的提升,而非业界常用的LoRA 微调方案,宣称用三张图就能实现主体在不同场景下的一致性。
在10月底,Runway推出了Act-One功能,在将真人表情转换为AI人物表情时,原始图像的外观特征得以保留,表情变化也不会导致人脸变形。
不断迭代的技术,也在影响创作者们的叙事方式。
每位创作者都有自己的方式来保持角色的一致性。一种简便的方法是从最初的角色设计阶段开始,就避免使用细节繁复的形象,而是选择线条简洁的角色形象。比如,在一个演示片段中展示的气球人,尽管顶部有一个气球,但即便有些许变形,观众也难以察觉。因此,朱智立在短片《桃花源记》中选择了穿着宇航服、戴着面罩的人物形象。
葛老板的AI短剧《胡相公》采用动画形象。图片来源:受访者提供
在2024北京国际电影节AIGC短片单元中,动画被证明是保持人物一致性的有效方式。由于人类对人脸更为敏感,容易挑剔,而动画形象即使有所变形,观众也能给予更高的宽容度。此次电影节的最佳影片《致亲爱的自己》、最佳美术设计《达芬奇计划:新文艺复兴》以及接近半数的优秀奖短片如《AI升职记》《老鼠嫁女》等均采用了动画角色。
在故事题材选择上,一种方法是选择大众熟悉的故事原型加以改编,这样即使AI短片本身的叙事不足,观众能够自行脑补剧情。葛老板的AI短剧《胡相公》获得了可灵AI短剧创作大赛的最佳创意奖,讲述了狐狸与书生的爱情故事,全程没有解说词,“观众一看到狐狸和书生,脑海里面自然会有一个画面,很多东西(剧情)就不用介绍……尽量写100 字以内就能讲明白的故事,如果讲一个300字以上的故事,用AI表现就难了。”
葛老板的AI短剧《胡相公》选择了狐狸与书生的故事原型。图片来源:受访者提供
这种方法是不用解说词,另一种相反的方式是——完全依赖解说词来叙事,这在AI短片中也非常常见,例如朱智立的短片《新桃花源记》中采用古文《桃花源记》的改写版作为全片的旁白,Runway获奖影片《My Mom》全片以口述信件作为旁白。
“故事依赖解说词”的现象,其背后的原因在于节约成本,因为当前的AI视频技术尚难以驾驭长镜头和复杂的叙事结构。为了推动剧情和塑造人物形象,需要大量的有效分镜头设计,而不仅仅是使用一些MV式的空镜过渡画面。
AI视频创作者葛老板提到,如果不依靠旁白和解说词,而是依赖人物对话,首要挑战在于配音工作。“寻找合适的配音演员非常耗时,要在短时间内找到合适的人选并不容易。”此外,即便找到了优秀的配音演员,如何将配音与AI角色的嘴型完美同步也是一大难题。
针对这种问题,视频模型的技术也在飞快进化。今年10月,可灵新增“对口型”功能,生成人物的口型与上传配音同步。
在制作《白骨精前传》时,Danny遇到了一个棘手的问题:为AI角色对嘴型。尽管他尝试了全球十几个专门提供对嘴型服务的网站,但效果并不理想。此外,为了给AI角色配音,Danny还试用了全球十几个AI语音合成平台,却发现AI配音的质量仍然无法与真人的声音质感相媲美。最终,他决定寻找专业的真人配音演员。为了在短时间内以较低成本完成比赛作品,Danny在抖音上找到了拥有1万至10万粉丝的配音博主,花费数百元完成了2分钟AI短片的配音工作。
但AI技术不断狂奔,谁也说不上AI语音何时会超过真人配音的质感。Danny近期在用AI语音合成软件“Dubbing X”,该软件在发布的全AI生成台词演绎的《十二公民》中,角色台词的音色、情绪都展现出复杂层次。
近期,多家视频模型厂商纷纷推出“多主体一致性”功能,为AI短片的叙事方式带来了新的突破。
生数科技于11月发布了Vidu 1.5版本,该版本重点推出了多主体一致性功能,使得人物能够在场景中进行大幅度移动时,避免出现人物与环境之间的变形问题。
目前,葛老板在尝试多主体一致性的功能时发现,尽管这一技术已经取得了一定的进展,但其效果仍有一定的局限。“比如我把一个人放到卧室背景的床上,再让他抱着一只公仔小熊,他的脸会有些变化,抱熊的姿势也会显得不太自然,不过整体上画面还是可用的。” 从这个例子可以看出,多主体一致性技术在处理复杂场景时仍有待提升。虽然它能够基本满足一些基础的需求,但在处理人物表情和动作细节方面,还需要进一步优化。这不仅需要算法上的改进,也可能涉及到更多的人工干预来达到更理想的效果。随着技术的发展,我们期待看到这一领域有更多的突破,为用户提供更加真实和自然的图像生成体验。
但这相比以前,已经大大提升了叙事的自由度。在此之前,葛老板难以制作出两个主体同时运动的场景。若想让两个角色同时出现在画面中并进行运动,就需要分别对这两个角色进行抠像处理,先单独生成视频,然后再叠加到背景上。
可以预见,飞速发展的视频模型技术,将进一步提升AI视频在叙事上的自由度。 随着AI技术的不断进步,视频模型的应用范围也在不断扩大,这不仅使得视频制作过程更加高效便捷,还极大地丰富了视频内容的表现形式与叙事手法。通过AI技术,创作者可以更灵活地控制视频中的每一个细节,从镜头切换到场景构建,再到人物对话,几乎所有的叙事元素都能实现高度定制化,从而为观众带来更为丰富和多元化的视听体验。此外,这种技术的发展也预示着未来媒体行业将迎来更多创新的可能性,尤其是在新闻报道领域,AI视频将能够以更快的速度提供更加生动详实的信息,帮助公众更好地理解复杂事件。然而,与此同时,我们也应关注随之而来的版权与伦理问题,确保技术的进步能够在健康有序的环境中发展。