通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  三级军士长

注册:2010-4-285
跳转到指定楼层
1#
发表于 2024-12-10 23:37:33 |只看该作者 |正序浏览







Sora只是GPT-1。

作者|苏霍伊

编辑|赵健

今天是OpenAI科技“马拉松”的第三天——鸽了近一年的Sora终于上线!

场面之火爆,Sora Turbo一经发布服务器就被挤爆了。




很多视频case已经在网上传播。对于Sora真实的“买家秀”效果,口碑评价出现了两极分化。有人认为,Sora代表了视频生成的最强水平。但也有人认为,Sora的表现并不及预期。

在今天举办的2024甲子引力年终盛典上,清华大学人工智能研究院副院长、生数科技首席科学家朱军,智谱CEO张鹏,以及北京智源人工智能研究院院长王仲远第一时间对Sora进行了评价。

朱军认为,Sora正式上线所带来的冲击度,相比今年二月的首次发布已经弱了很多。视频生成模型在今年有了长足的发展,已经完全不是Sora二月份刚发布时的阶段。整体来说,Sora的发布有一些产品上亮点,尤其是视频编辑的能力。但在基础模型能力的表现上其实没有太多的亮点,效果在预期之内,比如Sora的生成速度看上去还是挺长的,大概在分钟级,而且成本也不低,这都可能会影响后续用户的使用以及商业化的进展。


张鹏表示:“Sora的效果离自己的预期有一点偏差。如果看技术指标,国内有的视频生成模型不比Sora差。”比如智谱发布的视频生成模型产品清影,已经可以支持生成4K分辨率的视频了。

当然视频模型的比拼肯定不是简单地对比参数,而是如何产生实际的应用、产生生产力。张鹏认为,Sora这次发布把很大的精力放在了产品而非模型上,比如视频编辑能力、工作流,这是面向用户需求的转变。

王仲远认为Sora的上线基本符合预期,没有年初发布时的惊艳效果。从产品上线时间来看,国内公司也实际上已经早于OpenAI做出了产品级的模型。今年智源发布的新模型Emu3也探索了下一代的技术路线,是一个包括文本、图片、视频在内的原生多模态统一理解和生成模型。

从官网的介绍到用户的体验,总体看下来「甲子光年」最大的感受是OpenAI已经不仅仅是一个模型公司,而是进化为产品公司。Sora Turbo的亮点更偏重视频编辑的产品设计

OpenAI在今年显然加强了产品层的投入。比如今年6月,前Instagram产品副总裁以及Twitter产品副总裁Kevin Weil加入OpenAI,担任首席产品官。

人们经常问AI时代的Killer App是什么?今天来看,“Sora+ChatGPT”或许就是最被忽略的killer app。

1.视频版的GPT-1


北京时间12月10日凌晨,OpenAI CEO 萨姆·奥尔特曼(Sam Altman)与Sora团队负责人比尔·皮布尔斯(Bill Peebles)、阿迪亚·拉梅什(Aditya Ramesh)一起进行了20分钟关于Sora的讲解直播。




奥尔特曼在直播中将Sora称之为视频版的GPT-1,Sora是DALL·E和GPT模型的基础上创建的。

Sora采用了扩散模型(Diffusion Model),通过从初始“噪声”中生成基础视频,并逐步去噪以生成高质量画面。这一过程依托Transformer架构,能够一次性预测多个帧,确保画面中主体的连续性,即使主体暂时脱离视野,也能保持一致。

此外Sora继承了DALL·E 3的重新字幕技术(Re-captioning),为视觉训练数据生成详细的描述性字幕,增强了对用户文本指令的忠实呈现能力。

Sora的训练数据集来自多种来源,包括:

公开数据集(Public Datasets):来自行业标准机器学习数据集及网络爬虫的数据。 专有数据(Proprietary Data):通过合作伙伴获取的非公开数据,例如与Shutterstock、Pond5的合作。 人工生成数据(Human-Generated Data):由AI培训师和红队成员提供的反馈。
奥尔特曼表示Sora Turbo开启了AI模拟现实与交互的全新篇章。作为Sora的全新升级版本,它提供了多种视频比例选项,包括横屏(16:9)、正方形(1:1)和竖屏(9:16),适应不同的显示需求和创意表达。同时Sora Turbo引入了多种高级编辑功能:

Remix(重混):用户可以替换、删除或重构视频中的元素; Re-cut(重新切割):用户可以寻找视频中的最佳帧,并从此延展或循环剪辑; 混合:Sora Turbo可以将两个视频片段进行无缝合并; 故事板剪辑:精确地指定每个帧的输入,精确叙事控制,将照片转化为视频; 风格预设:用户可以选择预设的风格来创建视频,速设定视频的视觉风格。



Sora Turbo的效果展示

Sora有三种视频生成模式:

文本到视频(Text-to-Video)模式:Sora的核心功能,可以让用户通过输入文本描述来生成完整的视频。利用先进的自然语言处理技术和生成模型,Sora能够理解文本的含义,并将其转化为具象的视觉内容。这一模式适用于制作从简短的短片到情节丰富的叙事视频。 文本+图像到视频(Text+Image-to-Video)模式:在这个模式中,用户不仅可以输入文本描述,还可以上传图像来增强视频生成的精确性。通过结合文本和图像,Sora可以更准确地捕捉并实现创作者的创意意图,生成更符合视觉期望的视频。这一功能尤其适用于需要在视频中整合特定图像元素的应用场景,例如广告制作和产品展示。 文本+视频到视频(Text+Video-to-Video)模式:Sora还提供了视频编辑和转换功能,允许用户上传已有视频素材,并结合文本描述进行修改或扩展。这一模式使用户能够在现有视频的基础上添加新的情节、细节,甚至创作出全新的版本或完全不同的内容。例如,用户可以对现有的广告视频进行重新编辑,加入新的对话、场景或动画效果。



Sora Turbo的效果展示

“我们希望通过Sora项目构建能真正理解世界及物理(原理)的AI系统。我们才刚起步,Sora早期版本并不完美,偶尔有错误,但它现在已经能做到真正增强人类的创造力了。”皮布尔斯说道。

o1模型的核心贡献者之一、OpenAI的研究科学家诺姆·布朗(Noam Brown)称赞Sora是scale力量的最直观展示。OpenAI的研究员威尔·德普(Will DePue)也在社交媒体上表示:“我们付出了巨大的努力才实现这一目标,Sora是非常直接和有趣的产品。”

ChatGPT Plus/Pro用户可直接用Sora Turbo生成视频。ChatGPT Pro计划的用户每月可生成500个视频,时长最长可达20秒,最大分辨率为1080p;ChatGPT Plus用户每月可以生成50个视频,最大分辨率为720p,最长时长为5秒。

在推广Sora Turbo的同时,OpenAI对于技术的安全性和伦理使用也非常重视。他们对模型内置了多项安全措施,例如加入C2PA元数据确保视频的透明度,并验证视频的来源。同时OpenAI还设立了红队测试,这些测试由信息误导、仇恨内容和偏见等领域的专家进行。

“在过去的九个月中,我们观察了来自60多个国家/地区300多名用户的500000多个模型请求的用户反馈。这些数据有助于增强模型行为并提高模型对安全协议的遵守程度。”OpenAI在文章中写道。

2.Sora并不完美


Youtube科技评测网红马克斯·基思·布朗利(Marques Brownlee,网名MKBHD)也对Sora进行了深度评测。




布朗利的评测视频,来源:Youtube

布朗利发现Sora擅长粒子和流体模拟,“令人惊讶的是,Sora对流体动力学的处理相当出色,水的波动和火焰的效果往往能达到令人信服的程度,即使烟雾效果可能还不够完美”。但他同时也认为,Sora完全不懂物理。

从官方展示的视频也可以看出,Sora对“运动”的理解还不全面,有时甚至错误百出。比如在一个猴子轮滑的的视频中,可在看到猴子的右腿“毫无防备”地变成了左腿。




以及在提示词为“rockefeller center is overrun by golden retrievers! everywhere you look, there are golden retrievers.”的视频中,金毛猎犬的数量模糊,每个个体的形状不稳,又时隐时现,比如有的脑袋突然变成了尾巴。




对于这些不足,OpenAI表示:“Sora是一款强大的工具,使你能够跨越物理限制,在多个场景中同时发挥创造力,探索各种全新的可能性。更重要的是,我们认为它极大地扩展了幕后创作者的创作空间,赋予他们前所未有的能力去实现创意。”

直播最后,Sora团队也“泼了一盆冷水”来控制用户预期:“如果你带着这样的期望来到 Sora,认为只需点击一个按钮就能生成一部故事片,那么你可能抱有错误的期望。”


来源:网易

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-12-23 07:21 , Processed in 0.176092 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部