港中文最新！ReAL-AD：迈向类人推理的端到端自动驾驶，轨迹性能提升30%（ICCV‘25）

最新推荐文章于 2025-12-03 16:56:37 发布

原创

最新推荐文章于 2025-12-03 16:56:37 发布 · 874 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#自动驾驶 #人工智能 #机器学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享上海科技大学&港中文ICCV'25中稿的最新工作—ReAL-AD！迈向类人推理的端到端自动驾驶。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Yuhang Lu等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

端到端自动驾驶作为一种统一感知、预测和规划的方法，能够在统一框架内减少信息损失并提高适应性，近年来备受关注。然而，现有方法通常依赖于固定且稀疏的轨迹监督，这限制了它们捕捉人类驾驶员自然采用的层次化推理过程的能力。为了弥补这一差距，上海科技大学和港中文的团队提出了ReAL-AD，这是一种推理增强学习框架，基于三层人类认知模型（驾驶策略、驾驶决策和驾驶操作）来构建自动驾驶中的决策过程，并引入视觉-语言模型（VLMs）以增强环境感知和结构化推理能力。具体而言，我们引入了：(1) 策略推理Injector：通过解析VLM生成的复杂交通情境见解来制定高层次的驾驶策略；(2) 驾驶推理Integrator：将行驶意图细化为可解释的驾驶选择，如变道、超车和速度调整；(3) 层次化轨迹解码器：逐步将驾驶决策转化为精确的控制动作，以实现流畅且类人的轨迹执行。广泛的评估表明，集成我们的框架提高了规划准确性和安全性超过30%，使得端到端自动驾驶更加可解释，并与类人层次推理对齐。

论文链接：https://arxiv.org/abs/2507.12499
主页链接：https://4dvlab.github.io/project_page/realad

引言

端到端自动驾驶因其优势，如最小化信息损失和简化系统架构，受到了广泛关注。然而，现有方法面临根本性的局限。最显著的是，它们依赖于固定且稀疏的轨迹监督，这无法复制人类驾驶员内在的结构化认知推理过程——这一过程涉及对情境关系（例如，交通规则、交互意图）的分层理解以及适应性决策层次。

最近的研究引入视觉-语言模型（VLMs），旨在通过利用其语义推理能力和跨模态对齐来解决这些挑战。大多数研究将VLMs视为辅助模块，提供额外的语义线索以增强感知和规划。这些方法将语义推理视为一个孤立的预处理步骤，而不是有机地嵌入到决策层次中，在该层次中，战略规划、驾驶决策和操作控制协同工作。

这种缺乏结构化多阶段推理的现象阻碍了泛化能力，并限制了当前基于VLM的解决方案在多样化的现实世界场景中的有效性。

那么人类驾驶员是如何进行决策的呢？如图1所示，人类驾驶员以结构化、分层的方式做出决策，从高层次推理逐步细化到精确执行。在驾驶策略层面，驾驶员分析整体驾驶场景以建立战略理解。这包括识别关键交通元素、优先考虑相关目标，并结合交通规则和道路条件等情境因素。这种战略意识为后续决策奠定了基础。在驾驶决策层面，驾驶员将战略理解转化为驾驶选择，例如决定是否保持车道、超车或调整速度。这些决策是根据交通流、周围车辆和预测的交互动态做出的，以确保安全高效的机动。在驾驶操作层面，驾驶员将驾驶决策细化为精确的车辆控制动作。这包括调整转向、油门和刹车以执行预期的机动动作，进行包括变道在内的横向控制以保持稳定和安全。然而，大多数现有的端到端自动驾驶系统未能显式建模这种分层认知过程。相反，它们通常依赖于没有结构化推理的直接轨迹预测，导致规划次优且缺乏类人决策的粒度。

基于这一见解，我们提出了ReAL-AD，这是一种用于自动驾驶的新型推理增强学习框架，利用视觉-语言模型（VLMs）的能力将类人的分层决策嵌入到端到端自动驾驶系统中。受人类驾驶员结构化认知过程的启发，ReAL-AD引入了一个多层架构，显式建模从战略推理到驾驶执行的决策过程，从而在动态环境中提高可解释性和适应性。

具体而言，策略推理注入器从VLM生成的见解中提取高层次的情境意识，并将其编码为以自车为中心的查询以指导下游规划。驾驶推理整合器将这些高层次的决策细化为结构化的、可解释的驾驶控制命令，确保与现实世界驾驶约束的可行性和一致性。最后，层次化轨迹解码器采用分层变分解码器，通过两阶段过程逐步细化轨迹规划，确保高层次战略意图与低层次驾驶执行之间的一致性。通过在所有决策层级整合基于VLM的推理，ReAL-AD显著提高了在复杂动态交通场景中的可解释性、适应性和整体驾驶性能。

我们在NuScenes和Bench2Drive数据集上进行了广泛的实验，结果证明了我们的方法相对于现有方法的优越性能。与基线方法相比，我们的方法在L2误差上减少了33%，碰撞率降低了32%，显著提高了轨迹准确性和驾驶安全性。此外，全面的消融研究系统地评估了每个组件的贡献，进一步验证了我们框架的有效性。我们的贡献可以总结如下：

提出了ReAL-AD，这是一种新颖的推理增强端到端自动驾驶框架，明确引入了分层决策，并将轨迹规划与人类认知过程对齐。
引入了用于VLM驱动决策整合的策略推理注入器、用于结构化控制的驾驶推理整合器，以及用于分层轨迹细化的层次化轨迹解码器，确保从推理到执行的一致性。
在NuScenes和Bench2Drive数据集上实现了轨迹规划准确性和安全性指标超过30%的提升，同时消融研究确认了每个组件的贡献。

算法详解

概述

在本节中，我们提出了一个基于视觉-语言模型（VLM）的类人推理增强学习框架，将三层人类认知模型——驾驶策略、驾驶决策和驾驶操作——整合到端到端自动驾驶系统中。首先回顾传统端到端规划系统的操作范式。为了引入类人推理模式，我们开发了以下三个模块：

Strategic Reasoning Injector：通过解释来自VLM生成的复杂交通情境见解，制定高层次的驾驶策略；
Tactical Reasoning Integrator：将战略意图细化为可解释的驾驶选择；
Hierarchical Trajectory Decoder：通过层次化规划——首先建立粗略的运动模式，然后细化详细的轨迹——模拟人类直觉的精炼过程。

初步知识

在基于视觉的端到端自动驾驶系统中，多视角相机图像流首先由图像主干网络（例如ResNet）处理，以提取2D视觉特征。这些特征随后通过视图转换模块被转换为3D或鸟瞰图（BEV）场景表示，捕捉道路布局、智能体位置和车道拓扑等场景几何信息。基于Transformer的任务特定解码器使任务查询（例如智能体查询、地图查询）能够与场景特征交互，建模与规划相关的表示。规划模块初始化一个自车查询嵌入，通过交叉注意力层关注场景特征和任务查询，构建自车特征，使自动驾驶车辆能够理解其状态。最后，轨迹解码器（通常是一个多层感知机MLP）通过从自车特征回归来预测未来的路径点。