Waymo刚刚的基座模型分享：快慢双系统端到端 & 世界模型仿真

原创于 2025-12-10 09:28:29 发布 · 346 阅读

15 ·

CC 4.0 BY-SA版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

早上看到waymo最新的基座模型分享，柱哥抓紧解读了下，核心信息：基本上可以断定waymo在follow国内的快慢双系统端到端方案，和理想的E2E+VLM以及小鹏VLA2.0有相似之处。

在Waymo，我们正通过将“可验证安全的人工智能”置于核心优先级来攻克这一挑战——安全是我们从底层设计模型与人工智能生态系统的核心准则。由此，我们打造出了一套极其先进的人工智能系统，已实现大规模安全落地于物理世界。截至目前，我们的完全自动驾驶里程已远超1亿英里，在运营区域持续提升道路安全性——与人类驾驶员相比，严重事故发生率降低了十倍以上。

现在，我们邀请你走进这一技术核心。本文将详细解析Waymo的人工智能战略，以及该战略如何为我们注入发展动力，让安全的自动驾驶服务以史无前例的速度惠及更多用户。我们将拆解这套以Waymo基础模型（Waymo Foundation Model）为核心的整体人工智能方案，该模型支撑起统一的可验证安全人工智能生态系统，进而实现加速、持续的学习与迭代优化。

Waymo的整体人工智能方案

与其他先优化性能、再叠加安全功能的人工智能应用不同，在自动驾驶领域，安全绝不能是事后补充的考量。在Waymo，安全是我们构建人工智能生态系统不可或缺的核心基础。

实现“可验证安全的人工智能”——即安全是可被证明的，而非单纯承诺——需要一套整体方案。除了智能高效的自动驾驶系统（驾驶员），还需要一个闭环、逼真的仿真器，在各类复杂挑战场景中对“驾驶员”进行训练和严格测试；同时需要一个精准的评估系统（评论家），用于评估“驾驶员”的性能并识别改进空间。

核心优势在于统一性。我们的驾驶员、仿真器和评估器均以安全为核心联合开发，且由同一底层人工智能——Waymo基础模型——提供动力，形成持续的良性循环。

Waymo基础模型：Waymo人工智能的核心支柱

Waymo基础模型是一款多功能、顶尖的“世界模型”，为整个人工智能生态系统提供动力。其创新架构相比纯粹的端到端方案或模块化方案，具备显著优势。

具体而言，该模型充分利用习得嵌入（learned embeddings）的强大表达能力，作为模型各组件间的丰富交互接口，并在训练过程中支持完整的端到端信号反向传播。同时，其额外的紧凑、具象化的结构化表示（如目标物体、语义属性和道路图元素）可实现以下功能：

在“驾驶员”的推理阶段，进行有效的正确性与安全性验证；
实现大规模、物理层面准确且逼真的闭环仿真；
为评估器的评估过程和训练阶段的强化学习提供强有力的可验证反馈信号。

Waymo基础模型采用“快速反应与深度思考”（又称系统1与系统2）的架构，包含两个不同的模型组件：

用于快速反应的传感器融合编码器：作为基础模型的感知组件，它能实时融合摄像头、激光雷达和雷达的输入数据，生成目标物体、语义信息及丰富的嵌入特征，为下游任务提供支持。这些输入数据帮助我们的系统做出快速、安全的驾驶决策。
用于复杂语义推理的驾驶视觉语言模型（Driving VLM）：该组件利用丰富的摄像头数据，通过Waymo的驾驶数据和任务进行微调。它基于Gemini大模型训练而成，借助Gemini的海量世界知识，更好地理解道路上罕见、新颖且复杂的语义场景。例如，在极罕见的前方道路有车辆起火的场景中，尽管物理空间和可行驶车道可能允许通行，但该视觉语言模型（VLM）能提供语义信号，促使Waymo自动驾驶系统选择其他路线或掉头避让。

这两个编码器的输出均接入Waymo的世界解码器（world decoder），该解码器利用这些输入数据预测其他道路使用者的行为、生成高清地图、规划车辆行驶轨迹，并为轨迹验证提供信号。

Waymo的人工智能生态系统：知识从教师模型到学生模型的蒸馏传递

基于整体方案，Waymo基础模型为“驾驶员”、仿真器和评估器（评论家）提供动力。我们首先将基础模型适配这三大任务，训练出大型、高质量的教师模型，使其在各自特定角色中表现卓越。然而，这些教师模型体积过大，无法在车辆上实时运行以支持决策，也无法在云端高效处理数亿英里的仿真和评估任务。因此，我们通过安全的模型蒸馏技术，将其转化为更小的学生模型。模型蒸馏是关键环节，它能在保留大型模型卓越性能的同时，得到更紧凑、高效的版本。因此（与人工智能其他领域的类似趋势一致），通过先训练性能强大、容量充足的教师模型，再利用高效的蒸馏技术，我们能够让最终的学生模型实现更优的缩放定律（scaling laws）。

“驾驶员”：我们的教师驾驶模型经过训练，能够生成安全、舒适且合规的动作序列。通过蒸馏技术，我们将其丰富的世界理解能力和推理能力迁移至更高效的学生模型，优化后用于车载实时部署。为最大化蒸馏的效益，我们的车载架构设计与Waymo基础模型的结构保持一致。重要的是，Waymo自动驾驶系统（驾驶员）配备了独立且严格的车载验证层，用于验证其生成式机器学习模型所规划的行驶轨迹。

仿真器：仿真器是自动驾驶系统（驾驶员）闭环训练和测试的核心工具，可覆盖各类多样化、高难度场景，包括潜在碰撞风险、恶劣天气、复杂路口和道路上的异常行为等。仿真器教师模型能够创建高保真、多模态的动态虚拟世界，用于评估我们的“驾驶员”。学生模型则是这些大型模型的计算高效版本，专为满足自动驾驶系统稳健评估所需的大规模仿真任务而设计。Waymo基础模型的架构支持将紧凑的具象化世界状态表示与传感器仿真无缝结合，打造出大规模、超逼真、物理层面准确且计算高效的虚拟环境。

通过对全局场景元素（如天气条件和时间）使用文本提示，同时对场景中的动态元素（如其他道路使用者和交通信号灯）进行语义条件约束，我们能够将真实世界场景（左侧）转化为高度逼真的仿真场景（中间为摄像头仿真画面，右侧为激光雷达仿真画面）。值得注意的是，在该示例中，传感器数据完全是合成的，由我们的生成式传感器仿真模型基于底层紧凑的结构化世界表示生成。

评估器：我们的顶尖评估系统旨在对Waymo自动驾驶系统（驾驶员）进行压力测试，主动识别细微的边缘场景，并支持快速、有针对性的改进。评估器教师模型能够分析驾驶行为并生成高质量的反馈信号，用于训练学生模型和自动构建丰富的评估数据集。随后，评估器学生模型会分析驾驶日志，识别有趣或有问题的场景，并对驾驶质量提供细致的反馈。

在Waymo基础模型的支撑下，所有这些组件共同构成了一个无缝衔接的人工智能生态系统，形成了持续学习与优化的飞轮效应。

构建持续优化的飞轮效应

一个优秀的自动驾驶系统（驾驶员）并非一成不变——它是持续学习与进化的产物。Waymo自动驾驶系统的演进得益于多种机制的协同作用。我们的内部学习循环由仿真器和评估器（评论家）提供动力，利用强化学习对“驾驶员”进行训练。在这个安全可控的仿真环境中，“驾驶员”不断积累经验，根据自身行为获得奖励或惩罚，实现大规模学习。

我们的外部学习循环则基于Waymo的真实道路驾驶数据，形成了更强大的学习飞轮。该循环始于评估器（评论家）从我们海量的完全自动驾驶经验中，自动标记出任何次优驾驶行为；随后，我们基于这些事件生成改进后的替代行为，作为“驾驶员”的训练数据；这些改进会在仿真器中进行严格测试，由评估器（评论家）验证修复效果；最后，只有当我们的安全框架确认不存在不合理风险时，经过优化的“驾驶员”才会被部署到真实道路。

这一飞轮效应的实现，得益于我们多年来积累的海量完全自动驾驶数据，且这些数据仍在以指数级速度持续增长。过去，我们严重依赖高质量的人工驾驶数据来训练和优化Waymo自动驾驶系统；如今，我们的完全自动驾驶里程已远超人工驾驶数据量。如此庞大的真实世界完全自动驾驶经验是无可替代的——无论多少仿真训练、人工驾驶数据采集或有测试驾驶员参与的运营，都无法复制Waymo自动驾驶系统在完全自主运行时所遇到的各类场景及应对反应。将这些丰富的真实世界完全自动驾驶数据直接融入我们独特的飞轮体系，使Waymo自动驾驶系统能够从自身海量经验中学习，实现持续优化。

通过采用这套整体人工智能方案并构建学习飞轮，我们不仅在推动Waymo自动驾驶系统的进步，更在树立大规模安全自动驾驶的行业标准。我们持续创新，不断突破可能性的边界，未来在人工智能领域还有许多令人期待的工作即将展开。

自动驾驶之心

端到端与VLA自动驾驶小班课！