Waymo自动驾驶最新探索:世界模型、长尾问题、最重要的东西

作者 | Pirate Jack 来源 |  Vehicle

 原文链接:Waymo自动驾驶最新探索实践:世界模型、长尾问题、最重要的东西 

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

辅助驾驶/自动驾驶产业应该最终都会交叉,因为他们算法软件的底层逻辑是一样的。我们之前文章《IAA 2025 慕尼黑车展:中国汽车军团们,从“贸易出口”到“势不可挡”》也分享到了,中国在辅助驾驶开拓算法的公司不管Momenta、元戎、大疆都也和其他专做L4的公司一样在欧洲和中东各地掘金L4。

本文是基于Waymo 感知算法负责人 Wu Chen女士在今年CVPR上演讲内容总结,再根据自身经验分析自动驾驶算法、发展现状以及对于自动驾驶到底最重要的东西是什么。

构建一个世界模型

Waymo表示,他们开发了一个名为 Waymo 基础模型的大规模 AI 模型,该模型支持车辆感知周围环境、预测道路上其他车辆的行为、模拟场景并做出驾驶决策。

这个庞大模型的功能类似于 ChatGPT 等大型语言模型 (LLM),这些模型基于海量数据集进行训练,以学习模式并进行预测。正如OpenAI 和 Google 等公司构建了更新的多模态模型来整合不同类型的数据(例如文本、图像、音频或视频)一样,Waymo 的 AI 能够整合来自多个来源的传感器数据来理解其周围环境。

Waymo 基础模型是一个单一的大型模型,但车端是一个较小的模型,不过这个模型是从更大的模型中“提炼”出来的——因为它需要足够紧凑才能部署在车端。

大型模型被用作“教师”模型,将其知识和能力传授给较小的“学生”模型——这一过程在生成式人工智能领域被广泛使用。小型模型针对速度和效率进行了优化,并在每辆车上实时运行,同时仍保留驾驶汽车所需的关键决策能力。

因此,感知和行为任务(包括感知物体、预测其他道路使用者的行为以及规划汽车的下一步行动)都可以在车上实时进行。

云端的更大的模型还可以模拟真实的驾驶环境,在部署到 Waymo 车辆之前,进行虚拟测试和验证其决策。

所以,Waymo的世界模型可以、编码所有传感器数据(摄像头、雷达、激光雷达)并内置世界知识,解码所有驾驶相关任务(蒸馏缩小放在车端做感知、控制,可以在云端做虚拟仿真),这样可以实现强大的泛化能力和快速适应不同平台。

有了这个世界模型的算法,基本上解决了自动驾驶日常问题

接下来的任务-解决长尾问题

自动驾驶的长尾问题,无非就是天气、能见度低、遮挡、施工等复杂场景。虽然字面上很容易,但对于自动驾驶就是难解之题。

天气:

例如:雨后的路况的水坑,以及不常发生的洪水,自动驾驶算法需要判断水深和大量上下文信息,精确度和召回率要求极高,大量的空间信息。

Waymo的解法是采用VLM,但是前提条件是大量此类语料库。

雪地驾驶,这对车辆硬件要求高,传感器需要加热和清洁功能以应对堵塞。雪地驾驶的挑战还包括:如何决定行驶路线(地图是否仍然重要)、识别车辙,以及估计摩擦力。

低能见度与遮挡:

在极端低能见度下,如夜间高速公路上的行人或车辆,单个传感器可能无法检测,需要多模态传感器的协同。

凤凰城特有的沙尘暴(哈布)也对传感器识别构成挑战,激光雷达可以在尘暴中清晰看到行人

遮挡推理(Occlusion Reasoning):

最常见的就是视线不好的地方,到底有没有鬼探头,有没有加塞等。这类看不见区域中物体的存在和状态,对驾驶安全至关重要。

挑战包括:定义不明确、非确定性、缺乏真值(ground truth)以建立基准、主观性、交通参与者多样性以及高度依赖上下文。

人类常常对这种场景采取的方式是防御性驾驶

Waymo的解决方案包括:估计不确定的物体的先验信息(通过学习驾驶数据统计信息和利用微弱的传感器线索,其实也就是原有数据)以及准确估计自车速度先验(在不确定性高的路口,速度估计过低或过高都会导致问题)。

复杂场景理解:

施工场景:需要识别标志、推理驾驶几何形状,并根据锥筒等物体调整路线。

动态场景:如交通警官的手势,需要实时响应动态信号。

活跃事故现场:涉及大量应急车辆和路况堵塞,需要整体场景理解来推理,并决定最佳行动路线,而不仅仅是识别单个物体(如警戒线)。

总的来讲,对于复杂场景,不仅仅是识别特征元素那么简单,需要使用LLM大语言模型理解场景,然后根据场景内容做出决策。对于复杂场景Waymo表示他们也在探索。

自动驾驶开发到底什么最重要?

自动驾驶时人工智能落地的场景,所以自动驾驶最重要的东西也就是人工智能的三大件:数据、算法、算力。

但Waymo自动驾驶对这三大件却只提了数据,Waymo表示基础是拥有大量数据很重要,但数据筛选和整理更为关键,高效高质的数据才能确保模型专注于解决正确的问题。

Waymo使用语言搜索、基于嵌入的搜索(适用于外观和行为)、少样本学习和主动学习等技术

对于自动驾驶,数据里面肯定海量视频,如何数据挖矿出高质的视频,那么视频搜索能力中对于理解事件(如汽车碰撞、漂移、翘头)的含义至关重要。

快速的实时决策,天下武功唯快不破,自动驾驶也一样,Waymo表示谁能让算法到执行的链路用时越短,那么谁的自动驾驶就能做的更安全,更丝滑。

怎么理解这个自动驾驶的响应快,这个得拆解自动驾驶从摄像头等传感器的输入响应,然后就是算法的运算结论交给底盘等执行机构。

  • 传感器的输入响应,基本上就是看摄像头的fps和激光雷达等帧率,目前摄像头帧率都大于24Hz。

  • 算法的响应,基本上就是算法能够处理多块的帧率,然后按照多快的帧率比如10Hz和20Hz输送给底盘执行机构。

  • 底盘机构响应,这就是为什么这个时代油液的发动机和底盘已经不适应了,电机电控的控制频率已经非常高了,例如底盘刹车ESP的响应都是上百Hz。

所以,当前快速响应决策基本上都是卡在各家算法的处理输出响应频率。

最后,Waymo认为他的Depots运营停车场,改装工厂是最重要的,因为Waymo是做L4的,这些设备能够帮助L4顺利快速的运营。

Waymo的Depots运营停车场,目前车辆能够自己进入停车场,找充电的空位,充完电只要拔完枪,车子就自动开出去运营。

Waymo的改装车间,自动驾驶车辆,只要装完了传感器,车辆就能够自动驶出生产线,自己驶入运输卡车或者就直接开始运营。

写在最后

当然,Waymo这个在CVPR上的讨论,更多的是算法和开发以及少量运营。但对于辅助驾驶/自动驾驶批量生产和运营犹如汽车制造一样,还有更大的是工程落地的很多dirty work,可能Waymo还没有走到那一步。

工程落地是自动驾驶行业一个较大的壁垒,需要协同汽车开发,协同测试运营,听说行业内做的好的自动驾驶公司基本上都是挖角当年传统汽车工程师来做,例如博世等的工程师。

辅助驾驶/自动驾驶产业应该最终都会交叉,因为他们算法软件的底层逻辑是一样的。

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

<think>好的,用户想了解大模型自动驾驶中的应用综述或研究进展。首先,我需要回顾之前提供的四个引用内容,确保回答准确并涵盖关键点。用户可能希望了解大模型自动驾驶中的具体应用领域、技术挑战和未来方向。首先,根据引用[1],大模型在决策制定中的应用包括车辆控制、多任务决策、个性化辅助和导航规划。需要详细说明每个方面,比如LLMs如何处理复杂场景。引用[2]提到世界模型,特别是Ha和Schmidhuber的工作,这部分需要解释世界模型如何提升环境理解和预测能力。引用[3]强调行为预测和路径规划,这里可以结合深度学习模型的应用案例。引用[4]讨论了未来的技术方向,如模型压缩和可解释性,这部分需要作为未来展望。接下来,用户的问题可能涉及技术挑战,比如实时性、数据融合和安全性。需要将这些挑战分点列出,并引用对应的文献支持。例如,实时性问题可以联系引用[3]中的决策过程,数据融合可以提到多模态数据处理,安全性则涉及引用[4]的可解释性技术。 未来趋势部分需要结合引用[4]的混合精度量化和可解释性,同时引用[2]的世界模型发展,说明仿真训练的重要性。此外,可能需要补充一些其他研究进展,比如多模态大模型的应用,但要注意当前引用中没有提到,所以可能需要避免超出已有内容。 用户可能还希望了解具体的案例或方法,比如端到端系统(引用[1])、世界模型的具体架构(引用[2])、强化学习的应用(引用[3])。需要确保每个部分都有对应的引用标注,例如在讨论行为预测时引用[3]。后,生成的相关问题需要围绕用户的需求展开,可能涉及技术细节、比较分析、挑战和实际应用案例。需要确保问题具有针对性,能够引导用户深入探讨感兴趣的方向。检查是否所有数学公式都正确使用$...$或$$...$$格式,比如在路径规划中提到优化模型时是否需要公式,但当前内容中可能没有涉及数学表达式,所以暂时不需要。但如果有,比如路径规划的损失函数,需用$L=...$格式。后,确保回答结构清晰,分点明确,引用自然,并且语言流畅,符合中文表达习惯。</think>### 大模型自动驾驶结合的技术综述与研究进展 #### 一、大模型自动驾驶中的核心应用方向 1. **环境理解与场景建模** 大模型(如World Models)通过混合密度网络和循环神经网络(RNN),从多模态感知数据中提取环境特征,构建动态场景模型。例如,Ha和Schmidhuber提出的世界模型能预测车辆在复杂交通场景中的潜在状态变化[^2]。此类模型解决了传统方法对人工标注数据的依赖,提升了系统对道路拓扑、障碍物行为的理解能力。 2. **决策与路径规划** - **行为预测**:基于历史驾驶数据和实时感知信息,大模型(如Transformer)可预测行人、车辆等交通参与者的意图,例如通过注意力机制分析多目标轨迹相关性[^3]。 - **路径优化**:利用深度强化学习(DRL)框架,结合$Q_{\text{learning}}$算法,动态生成满足安全性、舒适性、效率等多目标的路径。公式表示为: $$ \max_{\pi} \mathbb{E}_{\pi} \left[ \sum_{t=0}^{T} \gamma^t R(s_t, a_t) \right] $$ 其中$R(s_t, a_t)$为状态-动作奖励函数[^3]。 3. **端到端自动驾驶系统** 大语言模型(LLMs)被集成到端到端架构中,直接处理原始传感器输入(如摄像头、激光雷达)并输出控制指令。例如,通过视觉语言模型(VLM)解析交通标志与语义地图,实现更人性化的驾驶策略[^1]。 --- #### 二、关键技术挑战 1. **实时性与算力需求** 大模型的参数量通常超过百亿级别(如GPT-3),需部署轻量化技术(如模型剪枝、混合精度量化)以满足车载计算平台的实时性要求[^4]。 2. **多模态数据融合** 如何有效融合视觉、雷达、高精地图等多源异构数据仍待突破。现有方法采用跨模态注意力机制,但长尾场景(如极端天气)的泛化性不足[^2]。 3. **安全性与可解释性** 大模型的“黑箱”特性可能导致决策过程不可追溯。当前研究尝试通过**显著性图**(Saliency Maps)可视化模型关注区域,例如在紧急制动场景中定位关键感知特征[^4]。 --- #### 三、未来研究方向 1. **仿真训练与虚实迁移** 基于世界模型的仿真引擎可生成高保真虚拟场景,加速算法迭代。例如,Waymo的Carcraft平台利用生成式模型合成罕见事故场景[^2]。 2. **个性化驾驶辅助** LLMs通过分析驾驶员历史行为(如变道频率、刹车力度),提供定制化驾驶建议,同时平衡法规约束与用户偏好[^1]。 3. **车路协同与群体智能** 探索大模型在车联网(V2X)中的应用,实现多车协同路径规划。例如,通过联邦学习框架共享局部模型参数,提升全局交通流效率[^3]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值