通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  四级军士长

注册:2007-10-294
跳转到指定楼层
1#
发表于 2024-9-27 15:39:39 |只看该作者 |倒序浏览
文|邓咏仪 周鑫雨

编辑|苏建勋

事情大家都知道了:字节跳动终于发布了自家的“Sora”。

9月24日的深圳AI创新巡展上,火山引擎发布两款视频生成大模型PixelDance(像素舞动)和Seaweed(海草),并且面向企业市场开启邀测。

这是一次毫无预警的发布。除了少数进入到内测环节的创作者,字节没有发布任何有关新产品的消息。

尽管低调,但市场对字节系Sora仍有着巨大期待。年初,OpenAI的Sora几乎是一脚踢开了多模态、视频生成的大门。之后,6月快手可灵的爆火出圈,彻底点燃了这个赛道。

作为短视频巨头的字节,从去年ChatGPT发布后,就备受市场关注。从已有条件上看,字节几乎是大厂中,做大模型和AI产品先天优势最足的一家:有钱、有芯片、人才密度也足够大。

类Sora赛道,也早已被市场公认为是字节、快手的“天选场景”——短视频巨头不仅有巨量数据,也有足够丰富的应用场景。

但现实是,快手可灵自6月上线以来,已有超260万人使用过可灵,累计生成了2700万个视频、5300万张图片。此前的字节却仍未有动静,不免要面对市场上的诸多猜测——等到此时发布AI视频生成模型,还有多大胜算?

字节版“Sora”,可以摘掉Sora的帽子吗?
从效果上看,两款模型初步可以实现的的效果,无疑令人惊艳。

字节官方给出的实例中,无论是统一性、角色丰富度,都上了一个台阶。

由文字或图像生成的AI视频,不仅能够遵循复杂指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节甚至头饰在不同运镜下也保持一致,接近实拍效果。

△来源:AI产品榜
豆包爆发式的增长,更多来自此前的激进价格战。自5月以来,包括字节、阿里、腾讯等巨头,以及Deepseek等创业公司,展开了一场轰轰烈烈的降价。字节甚至把每千Token价格卷到了以”厘“为单位,迅速拉到了地板价。

现在,底层模型已经到了拼性能的阶段。火山引擎总裁谭待,这次就又提出了一个新指标:峰值TPM(每分钟Token数)。“业内多家大模型目前最高仅支持300K甚至100K的TPM,难以承载企业生产环境流量。”他说。

TPM,可以看作是在在单位时间内,模型的数据吞吐量。豆包Pro支持800K的TPM——据谭待表示,比如某科研机构的文献翻译场景,TPM峰值为360K,某汽车智能座舱的TPM峰值为420K,某AI教育公司的TPM峰值会达到630K。这些场景,豆包Pro如今都可以满足。

随着豆包AI生成视频的发布,字节最后补上了AI视频的一块拼图。这和昨夜OpenAI突然发布的高级语音功能一起,一起形成了一种明喻:在模型层,大厂们已经武装到牙齿,大的细分赛道都有相应的模型——留给创业者的空间,又要再一次打个问号。

字节和快手的漫长对垒
在AI赛场上,字节对于胜利的渴望已经溢于言表。

剪映及其旗下的AI视频产品“即梦”,就由前抖音集团CEO、现剪映业务负责人张楠亲自带队。而为了尽快让此次的两款新AI视频生成模型上线,字节也抽调了不少人做工程。

字节跳动的焦虑,来自短视频战场上的老对手:快手。

2024年6月,文生视频模型“可灵”,就突然空降快手剪辑产品“快影”。

在行业苦等“中国版Sora”出现的当下,可灵的表现是亮眼的。

“现在视频生成很难做长的原因,一是成本高,二是前后一致性太难保证。”一名AI从业者告诉36氪,“但是可灵能生成2分钟视频,比Sora(60秒)的天花板还高。”

更进一步,从镜头的连贯性和元素关系的逻辑性来看,不少业内人士都表示,可灵在中国类Sora产品中,效果是Top级别。

与彼时仍未开放的Sora,和小出圈的生数科技视频生成模型Vidu相比,快手对“老铁们”也可谓是慷慨和坦诚:立马开放公测,且免费。

与“众多工程师参与”的PixelDance和Seaweed不同,可灵团队的项目执行方式可谓是相当粗放和激进。

有媒体曾报道,可灵团队只有20余人,从立项到上线只花了3个月。可灵启动一个月后,就被上升为快手的战略级项目。快手高级副总裁、主站业务与社区科学线负责人盖坤常说的一句话是:公司的卡都给你们用,公司全力支持。

在豆包发布之前,可灵也提供截至9月19日,可灵已经迭代了9次,最新的1.5版本上线了Web端,有了更高清的画质、更符合物理规律的运动轨迹,支持更为复杂的镜头控制和可自定义的运动轨迹。

不少从业者对36氪判断,可灵的出圈,与快手丰富的视频数据积累密不可分。而能与之一战的,大概率只有拥有抖音的字节跳动。

然而在视频生成领域,字节对阵快手以来,碰到了罕见的败北。其实早在可灵发布前1个月,剪映就在AIGC产品“即梦”上线了AI视频生成功能。

但无论是关注度,还是用户口碑,即梦都不算一款成绩漂亮的产品。一名使用者评价:在效果一般的情况下,非会员生成视频超3秒竟然还要收费。

压力已经给到了字节。一位AI 3D领域生成的从业者就表示,AI视频生成公司给出的样例,一般都是尝试过输入多次Prompt,才得出来的Good Case(好样本)。等之后全量上线,才能真正看到豆包在实用场景下的表现。

“一些明显可以感知的指标在于,长镜头时长什么时候可以超过1分钟,多分镜切换后时空一致性能不能保持,以及随着分辨率加大时,生成时间会不会跟随分辨率指数增长。”他表示。

对于当下的抖音和剪映业务体量而言,AI视频的应用成本依旧是高昂的。

一个最直观的问题在于,对于剪映这样一个月活已经超过3亿,专注在视频剪辑场景的应用,如何要在降低AI应用成本的同时,维持产品和效果的高水平,将是更难的挑战。

先发优势在AI模型层依然重要。目前,可灵、Vidu已经先行占据了视频生成领域的用户心智,作为后入者的字节,不得不加快步伐。

漫长的战役才刚刚开始。

封面来源|视频截图


举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-12-29 10:27 , Processed in 0.132163 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部