此次升级后的模型中,通义万相团队(以下简称团队)进一步自研了高效的 VAE 和 DiT 架构,针对时空上下文关系的建模进行了增强,显著优化了生成效果。
Flow Matching(流匹配)是近年来新兴的一种生成模型训练框架,其训练过程更简单,通过连续正则化流(Continuous Normalizing Flow)可以取得与扩散模型相当甚至更优的生成质量,并且推理速度更快,也因而逐渐开始应用于视频生成领域,比如 Meta 此前推出的视频模型 Movie Gen 便使用了 Flow Matching。
自去年 2 月,OpenAI 的 Sora 问世以来,视频生成模型成为了科技界竞争最为激烈的领域。国内到海外,创业公司到科技大厂都在纷纷推出自家的视频生成工具。然而相对于文字的生成,AI 视频想要做到人们可以接受的程度,难度高了不止一个等级。
如果像 OpenAI CEO 山姆奥特曼说的那样,Sora 代表了视频生成大模型的 GPT-1 时刻。那么我们在此基础上实现文本指令对 AI 的精准化控制、角度和机位的可调整、保证角色的一致性等视频生成该有的能力,再加上快速变换风格场景这样 AI 独有的功能,或许就可以很快迎来新的「GPT-3 时刻」。