通信人家园

标题: 终于来了，OpenAI最新Sora [查看完整版帖子] [打印本页]

时间: 2024-12-10 09:08

作者: tayun 标题: 终于来了，OpenAI最新Sora

万众期待的新一代Sora终于来了！

OpenAI刚刚推出最新版Sora！适用于Pro和Plus用户！可在sora.com使用。

目前在欧盟、中国等地区受到使用限制。

从使用端来看，流出的各种生成视频有了很大惊喜！

新版Sora分辨率从480-1080可选！生成1080P的视频最长约为20秒！

擅长抽象和流畅性动作！可宽屏、竖屏或者方形！

可上传、可下载之外，提供混音模式！文件夹模式！

可精选或者查看社区最新动态，让用户在社区分享中找到更多创作灵感！

Sora还包含一个“Storyboard”故事板面，可以将多个提示串联在一起，生成视频！

意味着用户除了可以利用文本生成视频之外，还可以输入图片和视频来帮助生成相应的视频。

科技博主-Marques Brownlee（MKBHD已经试用新sora一周），在X发布了一条10秒AI生成的新闻视频，根本看不出与真人区别！

新Sora功能突破不仅代表了视频生成技术的进步，也表明OpenAI在多模态生成能力上的技术突破。

特别是细节渲染和逻辑一致性能力，生成的视频不仅视觉效果丰富，且具备较高的连续性和稳定性！

01 提供三种生成模式

新Sora是OpenAI基于文本生成视频的下一代模型，相较于其前身，新Sora在功能上有了显著提升。

新Sora不仅支持基于文本生成视频，还可以结合用户上传的图片和视频来生成更加定制化和精细的视觉内容。

总的来说，Sora提供三种生成模式供你选择。

文本转视频 (Text-to-Video)模式

基础功能之一，允许用户通过输入文本描述来生成完整的视频内容。

利用自然语言处理和生成模型，sora能够精准地理解文字内容并转化为视觉元素，从而生成符合描述的动态画面。

无论是短视频还是故事性较强的内容，都能帮助创作者轻松生成符合设想的视频。

文本+图像转视频 (Text+Image-to-Video)模式

此功能中，你不仅可以输入文本描述，还可以上传图像来辅助视频生成。

通过将文本与图像结合，Sora能够更精确地捕捉并展示创作者的意图，生成更加符合视觉要求的内容。

对于希望在视频中融入特定图像元素的创作者将非常有意义，例如广告、产品展示等场景。

文本+视频转视频 (Text+Video-to-Video)模式

Sora还加入了视频编辑和转化的功能，即用户可以上传已有的视频，并结合文本描述来对其进行修改或扩展。这使得用户可以基于现有素材，添加新的情节或细节，创作出新的版本或完全不同的内容。例如，用户可以对已有的广告视频进行重新编辑，加入新的台词、场景或动画效果。

由于市场对于新Sora的期待非常高，相信也会再次拉升一波订阅潮！

02 被狙击的国产“视频生成”野心勃勃

过去一年，尽管海外产品引人注目，但国产文生视频领域，其实也水花不断。

国内的互联网大厂、初创企业纷纷布局了视频生成技术，争先恐后推出产品。

阿里云EasyAnimateV3： 阿里云团队开源的视频生成模型，7月迭代到V3版本。通过扩展DiT框架引入运动模块，增强了对时间动态的捕捉能力，通过视频续写功能，EasyAnimate V3可以创建任意时长的视频，满足长时间视频内容的需求。

快手可灵AI（Kling AI）： 在文生视频、图生视频方面展现出了创造逼真运动场景、精确模拟物理特性的能力与潜力。产品方向包括文生视频、图生视频、视频续写等功能，当下累计申请用户数50万+，开通用户数30万+，生成视频数700万。

字节跳动-豆包AI视频生成大模型PixelDance与Seaweed：PixelDance基于DiT(Diffusion Models)架构设计，支持生成具有连贯动作的视频，包括多主体间的交互和复杂动作序列；Seaweed基于Transformer结构，通过时空压缩技术训练，支持多分辨率输出，生成逼真、流畅的视频，适合多种商业应用场景。

生数科技Vidu1.5：4月联合清华大学发布了视频大模型Vidu，11月发布最新Vidu1.5版本。全面开放了文生视频、图生视频两大功能，Vidu 1.5全球首发了多主体一致性功能，使得创作的角色、物体、场景等始终保持一致。通过上传1~3张参考图，Vidu 1.5能够实现对单主体100%的精确控制，同时实现多主体交互控制、主体与场景融合控制，无缝集成人物、道具和场景。

爱诗科技PixVerse V2：爱诗科技的PixVerse在2024年1月正式上线文生视频产品，7月正式发布PixVerse V2，采用Diffusion+Transformer（DiT）基础架构，引入自研的时空注意力机制，单片段可达8秒，多片段则可达到40秒。

智谱AI清影（Ying）：7月智谱AI上线了最新视频生成产品Ying（清影），可在30秒内生成6秒的1440×960高清视频，同一指令或图片可以一次性生成4个视频，引入CogSound模型，能够自动根据视频内容生成匹配的音效。

Minimax海螺AI（abab-video-1）： 9月，Minimax的海螺AI发布新产品，据悉在综合性能上甚至超越当时的Sora、Runway等竞争对手，运用深度学习与计算机视觉技术，视频超分辨率技术，视频修复技术，生成对抗网络（GANs），自回归模型，以及变分自编码器（VAEs）等先进技术原理。

尽管大家追捧openAI的先进技术，实际上在国内，国内企业在用户体验和商业化实施方面也取得了快速进展。

今年以来，有众多新模型和升级版向用户全面开放，部分已投入微短剧制作。

03 展望革命性变化，在应用场景更广泛的国内也许有更多空间

从技术角度来看，新Sora的发布将进一步推动AI视频生成技术的发展，技术的比拼也将进入下一个阶段。

特别是在视频时长、画面稳定性、连续性和主体前后的一致性上。

不仅聚焦在提升内容创作者的效率，也为广告、教育和娱乐行业的变革性机遇助力。

从行业应用的角度来看，新Sora的发布将为视频制作领域带来革命性的变化，也为整个市场教育加了一把火。

无论是电影制作、广告、游戏开发还是社交媒体，可以借助视频生成大模型提供高质量的视频生成服务，降低视频创作的门槛，让更多人接受与应用AI，让更多人能够通过想象力创作出优秀的视频内容，

当然，未来的竞争也将不仅仅局限于生成效果和创作速度的比拼，更会扩展到如何更好地将AI视频生成与商业化、社交平台的内容生态结合。

在庞大的中国市场，也希望国产厂商能抓住近水楼台先得月的机遇。

来源：36kr

时间: 2024-12-10 09:56

作者: wuzhi0820

不能注册啊

通信人家园 (https://test.txrjy.com/)