5年内实现自动驾驶，世界模型是唯一解 [复制链接]

ttxx

军衔等级：

三级军士长

电梯直达

1^# 大中小

发表于 2024-12-21 10:07:10 |只看该作者 |倒序浏览

之前的文章我们提到，端到端让行业看到了通往自动驾驶的捷径，但光有端到端还不够。蔚小理华VS地绝元魔，谁是端到端大模型执牛耳者。端到端的“黑盒”特性使得它无法直接约束系统的安全边界；并且无法复现复杂的、偶发的corner case，考验可解释性和泛用性能力，把上限提高的同时拉低了下限，存在“跷跷板效应”。

如何解决这些问题？

于是，世界模型被引入自动驾驶。圆周智行粗略统计，目前已经有超过10个车企和自动驾驶公司提出了世界模型。包括特斯拉，英伟达，蔚来，理想，地平线，商汤，元戎启行，Momenta。还有很多企业虽然并未对外传播世界模型，但其实内部也一直在推进此事。

那么，到底什么是世界模型？它是如何生成的？又是如何工作的？

在回答这些问题之前，我们先看一个案例，蔚来汽车是如何思考世界模型的？

2023年NIO day上，蔚来就公布了其正在自研世界模型的计划。2024年7月的科技日上，蔚来智驾负责人任少卿释放了更多技术细节。

在蔚来的理解里，人类大脑具备两个能力。首先是空间理解能力，也叫想象重建能力。大白话说就是凭空想象能力，你可能没有见过一棵长了100年的大树，但是你可以通过大脑想象它的样子。其次是时间理解能力，或者叫想象推演能力。大白话说就是在大脑里进行时空推演，想象一棵树春夏秋冬的样子。二者共同组成的能力就叫时空认知能力。这是人在三维世界生存的基本技能。这就是人脑构建的世界模型。

这个理解和权威机构对世界模型的定义完全吻合。“World Models”（世界模型）最早出现在机器学习领域。2018年，机器学习顶会NeurIPS收录了一篇《Recurrent World Models Facilitate Policy Evolution》论文，以认知科学中人脑mental model来类比世界模型，认为mental model参与了人类的认知、推理、决策过程，其中最核心的能力在于反事实推理（Counterfactual reasoning），这是一种人类天然具备的能力。

回到自动驾驶，蔚来提出了一个很核心的观点，自动驾驶如果实现也必须具备这样的能力。自动驾驶有很多不常见长尾场景，也就是大家常说的corner case，这样的长尾场景数据获取非常艰难。业内比较常规的做法有两个：一个是3D重建，但是这样的做法成本高，效率低，并不实用；另一个就是仿真，但是仿真的数据根本无法“还原”真实数据，对自动驾驶的帮助有限。于是，自动驾驶的“大杀招”世界模型出现了，它可以根据视频，图片，甚至文本描述自动生成视频数据，给自动驾驶提供源源不断的“燃料”。

在自动驾驶里，世界模型如何发挥作用，地平线对此给出了更细致的解释，世界模型的作用：一是通过生成式大模型生成带有预测性质的视频数据，实现corner case多样化训练；二是采用强化学习的方法认识复杂驾驶环境，从视频输出驾驶决策。

那么，如何来构建世界模型，办法有两个：一个是凭空想象，“无中生有”；另一个是根据现有信息完善信息，比如输入文本，图片，视频，生成更多更丰富的视频。

对于第一个环节，我们需要插入一个容易混淆的概念。很多人认为世界模型就是仿真，二者确实有相似之处，世界模型包含了仿真的部分内容，但是又完全高于仿真。

任少卿提出了一个很有意思的观点，自动驾驶发展了这么多年，本质上都是在做空间理解的升级，就是让系统更理解周围的世界。最早是通过提升传感器硬件能力，后来是算法升级，BEV视角转换，OCC 2D变3D，到现在软硬件能力都已经出现瓶颈，但是极端场景数据的获取却成了大难题。于是，技术人员就想到了自己“造数据”的方式。

当然，必须承认的是，这项技术的发展并不始于自动驾驶领域，世界模型的概念最早在2018年被引入人工智能领域。2022年，Yann LeCun在机器智能里提出了双系统的概念，其中的系统二就提到了要用世界模型构建未来场景的办法。但是真正让这项技术被更多人熟知的时间要推到2024年，其中的最大功臣自然是Open AI。

2024年2月16日清晨，Open AI公司发布了一款震惊全世界的视频生成大模型Sora，它可以根据文本自动生成一段60秒的视频。这是世界模型的一个具象体现。

在人工智能领域，世界模型的影响力远远超过自动驾驶，包括李飞飞的world Labs，谷歌DeepMind等企业都发布了世界模型。Yann LeCun的Mate FAIR团队还发布了导航世界模型，根据前一秒的导航信息实时生成下一秒的轨迹。想象一下这个技术一旦成熟，将会给自动驾驶带来多大的帮助。

这里插一句题外话，如果我们梳理自动驾驶技术的发展路线会发现一个非常有意思的事情。这几年所有对自动驾驶发展产生推动的技术都不源于自动驾驶，而是人工智能，包括transformer，BEV，OCC，到今天的端到端，世界模型。正应了那句话，自动驾驶本质上是人工智能的一个具身智能体现。所以技术人员很喜欢说一句话，搞自动驾驶不能只盯着自动驾驶，这样永远搞不好自动驾驶。

在自动驾驶，特斯拉毫无疑问是那个探路者。就像乔布斯带领苹果科技惠民一样，虽然苹果并不是技术发明者，但它确实是将技术融入产品的最佳实践者。

世界模型帮助所有智驾玩家打开了一个全新的世界。2023 年，特斯拉自动驾驶负责人在 CVPR 上介绍了其正在打造的 “通用世界模型”。该模型可以通过过往的视频片段和行动提示，生成 “可能的未来” 的全新视频，其基础架构由多台摄像机的视频流输入，汇集到一个大型 Transformer 块中，通过空间注意力和几何模型等形成特征并进行预测，可用于预测占用率、体素未来的流动情况以及车道等驾驶所需的任务。

与此同时，Wayve也在2023 年发布了 GAIA-1 模型，它可以依靠视频、文本和动作的输入生成逼真的视频，能够生成分钟级的视频以及多种合理的未来场景，帮助自动驾驶模型的训练和仿真。

2024 年 GTC 大会上，英伟达也展示了其在世界模型领域的新进展，通过将多模态数据输入模型训练并让模型预测未来驾驶场景，自动驾驶基础模型可以稳定生成多个摄像头拍摄到的逼真的驾驶场景演变，并且通过语言提示词也可以使得模型呈现的场景灵活变化。

在国内传播层面，蔚来汽车是国内最早提世界模型的车企。其在2023就表示正在研发世界模型，2024 年 7 月 27 日，蔚来发布了中国首个智能驾驶世界模型 NWM 。

华为则是把自动驾驶的视频生成板块放在了盘古大模型中，叫做场景生产大模型。华为在2020年开始启动盘古大模型研发，并于2021年4月正式发布，到2022年聚焦行业应用落地。

华为对世界模型的使用更加多元。它从实车数据学习如何生成新视频，同时处理重建和渲染，生成数据可用于感知算法训练；重建各类障碍物构建素材库，根据需要构造corner case，增强数据完备性；针对天气、昼夜、季节等环节因素对已有场景进行变换，构造corner case。它基于神经网络做实车场景，并进行重建跟渲染。

有意思的是，在自动驾驶上一直以先锋自居的小鹏汽车在世界模型上并没有任何资料流出，不知是在憋大招还是觉得不重要。推测来看，前者的可能性居多。

世界模型的价值如何评估

就在世界模型被疯狂追捧的同时，一个更深的问题摆在行业面前：世界模型到底应该凌驾于真实数据之上，还是仅仅作为真实数据的补充。

特斯拉和元戎启行的思路是用一套系统覆盖两种商业模型，辅助驾驶和Robotaxi。然后用数据训练的方式不断提升系统的能力上限，这种逻辑下世界模型更像是现实世界数据的补充。但这似乎低估了世界模型的价值。

“世界模型是最重要的事情，没有之一。”

小马智行CTO楼天城给了世界模型极高的评价，他认为世界模型是自动驾驶当前最重要的事情。依靠现有的真实数据只能让智驾系统无限接近人，只有世界模型数据才能构建出更复杂的世界，最终让训练出来的系统超越人。理由很简单，自动驾驶是对人类驾驶行为的学习，因为人的驾驶能力有上限，所有自动驾驶的安全边界也有上限，但楼天城认为，自动驾驶的安全必须高于人类才有意义，尤其是L4级自动驾驶。所以必须要有高于人类驾驶行为的世界模型数据训练出来的系统才能优于人类。按照这个表述，世界模型应该凌驾于真实数据之上。

这里我们来看看地平线的实践案例，传统基于规则的CNN（卷积神经网络）学习方式，没有泛化和理解能力。地平线提出了“交互式博弈”，核心在于通过生成数据驱动实现模拟学习和强化学习。为了避免机器对数据的重复模仿，它必须要学会主动理解数据。这时候世界模型就承担了「驾驶世界观」的作用。这里我的理解是，地平线已经实现了楼天城说的，让世界模型担当系统教练的角色，指导系统到底该怎么开。

此外，世界模型还可以作为额外的信息源，为预测环节服务。当地图信息和传感器信息输入World Model，机器经过处理输出仿真、想象、演绎甚至脑补过程，支撑系统的交互博弈，为系统兜底。

那么，世界模型的好坏又该如何评估。如果单纯从理论层面，很难。世界模型的能力就好像语文作文，很难通过一个量化的指标去评估好坏。目前虽然很多车企发布了世界模型，但是对具体细节数据展示的不多。这里我们来看看蔚来和商汤的案例。

蔚来对其世界模型的介绍如下：

“能够在 100 毫秒内推演出 216 种可能发生的场景，并可基于 3 秒的驾驶视频生成 120 秒的想象视频，还具备闭环仿真测试能力。”

商汤绝影对 “开悟”世界模型的介绍如下：

“（视频生成）时间最长为150秒、分辨率可达1080P、视角可以实现11V”。

绝影认为这个难度很大，行业普遍都是生成1V或6V视角的视频，开悟直接干到11V，而且同时生成的视角画面越多，要保持时空一致性就更难，还要克服鱼眼视角的畸变。

虽然没有准确的评估办法，但是他们都强调了世界模型的几项能力：准确性，多样性，可控性和泛化能力。

目前看来，世界模型的能力还远远没有开发出来。

楼天城提出了一个设想，世界模型还可以充当一个评分体系，对自动驾驶系统的表现做出评价，不断提升系统的能力。

地平线提出了世界模型的两个长远价值：首先是更准确的世界理解，帮助减少智驾系统的代码量，延迟，网络负载，错误率等；然后是泛化能力，世界模型可以让高阶智驾形成对复杂驾驶环境的通用理解，而非对输入的重复依赖。大白话说就是举一反三。

最近地平线创始人余凯在接受采访时表示，大规模L4、L5将会在5年左右实现。而目前行业形成的一个共识是，自动驾驶实现的一个大前提不仅仅是像人，而是要超越人。真实世界的数据只能是无限接近人，要超越人，世界模型是目前技术人员探索出来的通往自动驾驶的唯一解。

来源：36kr

本主题由版主或管理员于 2024-12-21 10:52 审核通过

0 举报本楼

本帖有 6 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2024-12-22 20:11 , Processed in 0.189635 second(s), 17 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册