目前看,不论是抖音还是快手,AI 生成视频最主要的落地场景都是趋同的,除了 C 端用户收费之外,B 端场景一个是服务于短剧等影视制作和后期市场,另外一个则是服务于广告和电商内容营销,比如商品素材展示上生成不同的图片。
在火山引擎大会上,张楠曾展示过两个即梦创作者的 AI 短片,其中一个就是今年 7 月份上线的科幻短剧《觉醒》,当时在抖音单日点赞破 40 万;而同一时期,快手的可灵也打造过一部《山海奇镜之劈波斩浪》,同样都属于试水制作。
但实际上,AI 生成视频对影视制作只是辅助性的,目前阶段仍然是小规模制作,要完成大批量的影视后期制作,即梦和可灵都是顺着 Sora 类似的 Dit 架构(一种结合了 Transformer 架构的扩散模型,用于图像和视频生成任务)在前进,都有很长一段路要走,商业化也尚为时过早。
当谷歌击败Sora
OpenAI 的 Sora 开放使用之后,一系列生成视频的表现并不符合外界的期待,而谷歌在近期发布的视频生成器 Veo2,通过一系列测试表明,其有超过 Sora 的更惊艳表现。
尤其是一个最著名的切西红柿的镜头,谷歌的 Veo2 刀子干净利落地切开西红柿,避开了手指,而 Sora 视频中的刀子却切开了手,这让 Sora 再次成为群嘲的对象,也让行业人士认为,Sora 更偏向于运动,而 Veo2 则更注重物理的准确性。
有 AI 行业人士认为,谷歌之所以能超越 Sora,不光是发现了 Sora 物理准确性的弱点,更在于其利用 YouTube 来训练其人工智能模型。
字节跳动的技术团队并非没有发现 Sora 在物理准确性上的弱点。11 月,豆包大模型团队曾发布过一篇论文,名为《从世界模型的角度来看,视频生成与之相距多远:基于物理定律的视角》(《How Far is Video Generation from World Model: A Physical Law Perspective》),探究了视频生成模型能否观察事物间的相互关系,并从中提炼出一套稳定的物理规律。