港中文最新!ReAL-AD:迈向类人推理的端到端自动驾驶,轨迹性能提升30%(ICCV‘25)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享上海科技大学&港中文ICCV'25中稿的最新工作—ReAL-AD!迈向类人推理的端到端自动驾驶。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>自动驾驶前沿信息获取自动驾驶之心知识星球

论文作者 | Yuhang Lu等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

端到端自动驾驶作为一种统一感知、预测和规划的方法,能够在统一框架内减少信息损失并提高适应性,近年来备受关注。然而,现有方法通常依赖于固定且稀疏的轨迹监督,这限制了它们捕捉人类驾驶员自然采用的层次化推理过程的能力。为了弥补这一差距,上海科技大学和港中文的团队提出了ReAL-AD,这是一种推理增强学习框架,基于三层人类认知模型(驾驶策略、驾驶决策和驾驶操作)来构建自动驾驶中的决策过程,并引入视觉-语言模型(VLMs)以增强环境感知和结构化推理能力。具体而言,我们引入了:(1) 策略推理Injector:通过解析VLM生成的复杂交通情境见解来制定高层次的驾驶策略;(2) 驾驶推理Integrator:将行驶意图细化为可解释的驾驶选择,如变道、超车和速度调整;(3) 层次化轨迹解码器:逐步将驾驶决策转化为精确的控制动作,以实现流畅且类人的轨迹执行。广泛的评估表明,集成我们的框架提高了规划准确性和安全性超过30%,使得端到端自动驾驶更加可解释,并与类人层次推理对齐。

  • 论文链接:https://arxiv.org/abs/2507.12499

  • 主页链接:https://4dvlab.github.io/project_page/realad

引言

端到端自动驾驶因其优势,如最小化信息损失和简化系统架构,受到了广泛关注。然而,现有方法面临根本性的局限。最显著的是,它们依赖于固定且稀疏的轨迹监督,这无法复制人类驾驶员内在的结构化认知推理过程——这一过程涉及对情境关系(例如,交通规则、交互意图)的分层理解以及适应性决策层次。

最近的研究引入视觉-语言模型(VLMs),旨在通过利用其语义推理能力和跨模态对齐来解决这些挑战。大多数研究将VLMs视为辅助模块,提供额外的语义线索以增强感知和规划。这些方法将语义推理视为一个孤立的预处理步骤,而不是有机地嵌入到决策层次中,在该层次中,战略规划、驾驶决策和操作控制协同工作。

这种缺乏结构化多阶段推理的现象阻碍了泛化能力,并限制了当前基于VLM的解决方案在多样化的现实世界场景中的有效性。

那么人类驾驶员是如何进行决策的呢?如图1所示,人类驾驶员以结构化、分层的方式做出决策,从高层次推理逐步细化到精确执行。在驾驶策略层面,驾驶员分析整体驾驶场景以建立战略理解。这包括识别关键交通元素、优先考虑相关目标,并结合交通规则和道路条件等情境因素。这种战略意识为后续决策奠定了基础。在驾驶决策层面,驾驶员将战略理解转化为驾驶选择,例如决定是否保持车道、超车或调整速度。这些决策是根据交通流、周围车辆和预测的交互动态做出的,以确保安全高效的机动。在驾驶操作层面,驾驶员将驾驶决策细化为精确的车辆控制动作。这包括调整转向、油门和刹车以执行预期的机动动作,进行包括变道在内的横向控制以保持稳定和安全。然而,大多数现有的端到端自动驾驶系统未能显式建模这种分层认知过程。相反,它们通常依赖于没有结构化推理的直接轨迹预测,导致规划次优且缺乏类人决策的粒度。

基于这一见解,我们提出了ReAL-AD,这是一种用于自动驾驶的新型推理增强学习框架,利用视觉-语言模型(VLMs)的能力将类人的分层决策嵌入到端到端自动驾驶系统中。受人类驾驶员结构化认知过程的启发,ReAL-AD引入了一个多层架构,显式建模从战略推理到驾驶执行的决策过程,从而在动态环境中提高可解释性和适应性。

具体而言,策略推理注入器从VLM生成的见解中提取高层次的情境意识,并将其编码为以自车为中心的查询以指导下游规划。驾驶推理整合器将这些高层次的决策细化为结构化的、可解释的驾驶控制命令,确保与现实世界驾驶约束的可行性和一致性。最后,层次化轨迹解码器采用分层变分解码器,通过两阶段过程逐步细化轨迹规划,确保高层次战略意图与低层次驾驶执行之间的一致性。通过在所有决策层级整合基于VLM的推理,ReAL-AD显著提高了在复杂动态交通场景中的可解释性、适应性和整体驾驶性能。

我们在NuScenes和Bench2Drive数据集上进行了广泛的实验,结果证明了我们的方法相对于现有方法的优越性能。与基线方法相比,我们的方法在L2误差上减少了33%,碰撞率降低了32%,显著提高了轨迹准确性和驾驶安全性。此外,全面的消融研究系统地评估了每个组件的贡献,进一步验证了我们框架的有效性。我们的贡献可以总结如下:

  • 提出了ReAL-AD,这是一种新颖的推理增强端到端自动驾驶框架,明确引入了分层决策,并将轨迹规划与人类认知过程对齐。

  • 引入了用于VLM驱动决策整合的策略推理注入器、用于结构化控制的驾驶推理整合器,以及用于分层轨迹细化的层次化轨迹解码器,确保从推理到执行的一致性。

  • 在NuScenes和Bench2Drive数据集上实现了轨迹规划准确性和安全性指标超过30%的提升,同时消融研究确认了每个组件的贡献。

相关工作回顾

端到端自动驾驶

端到端自动驾驶规划方法通过同时训练多个模块来实现其最终目标,减少了在流水线过程中的信息损失,使其成为热门研究领域。ST-P3引入了一种设计,通过整合多个辅助信息或任务来增强规划性能。UniAD在开环评估中展示了出色的性能。随后VAD引入了紧凑的矢量化场景表示,这不仅提高了规划效率,还降低了计算成本。PARA-Drive研究了在端到端框架内辅助任务设计顺序的影响。GenAD将自动驾驶建模为未来生成问题,在结构化潜在轨迹空间内同时进行运动预测和自车规划。此后,诸如VADv2和DiffusionDrive等研究探索了将概率建模整合到规划中以提高准确性。

然而,这些方法依赖于一组固定的未来自车轨迹作为真实值,导致监督稀疏。这在人类驾驶员使用复杂决策的情况下存在问题,因为单独的自车轨迹无法捕捉到这些复杂决策。这限制了自动驾驶系统的学 习和泛化能力。相比之下,我们的方法利用视觉-语言模型(VLMs)来更深入地理解驾驶行为。通过整合高维策略和驾驶命令,并通过分层解码器以更细粒度预测轨迹,网络模仿了人类的推理过程,增强了规划决策和整体自动驾驶性能。

用于自动驾驶的VLMs

近年来,视觉-语言模型(VLMs)在广泛的任务中展示了卓越的性能,并将它们整合到自动驾驶系统中已成为重要的研究领域。许多研究将VLMs视为接收驾驶场景图像和文本提示作为输入,并生成驾驶决策作为输出的代理。例如,Drive-with-LLMs将感知信息编码到潜在空间,然后输入到大型语言模型(LLM)中以预测未来规划轨迹。DriveGPT4采用前视相机视频输入,利用VLMs预测用于规划的控制信号并提供决策解释。LanguageMPC将历史真实感知数据和高清地图转换为语言格式,使用链式推理分析驾驶场景并生成规划动作。AgentDriver将驾驶情境转换为具有类人智能的文本描述,然后使用LLM进行推理和规划。此外,DriveMLM验证了在闭环仿真环境中基于VLM的规划模型的有效性。然而,尽管VLMs可以捕捉复杂的视觉和语言线索,但它们往往缺乏对驾驶行为潜在物理特性和约束的全面掌握,以及有限的3D空间理解能力,导致与考虑更全面环境反馈的端到端系统相比,轨迹预测的准确性和安全性较低。

另一种方法是将VLMs的决策能力作为额外输入整合到端到端自动驾驶系统中。这种方法主要集中在利用VLM输出来细化或指导这些系统的学习过程。DriveVLM将VLM用作较慢的系统来生成驾驶轨迹,必要时使用互补网络作为参考。VLM-AD将VLM用作教师生成自由形式的推理并构建动作注释,从而辅助端到端网络的学习。VLP通过加强车辆上下文和环境的理解来增强自动驾驶系统。Senna将高层规划与低层轨迹预测解耦,创建了一个更加模块化和可解释的规划框架。现有方法通过蒸馏和对比学习来整合决策特征,但将语义推理视为一个独立的预处理步骤,限制了在现实世界场景中的泛化能力。为了解决这个问题,我们利用VLM生成驾驶策略和驾驶命令,并引入一个分层轨迹解码器将这些决策转化为精确的控制动作,模拟人类驾驶的思考过程。

算法详解

概述

在本节中,我们提出了一个基于视觉-语言模型(VLM)的类人推理增强学习框架,将三层人类认知模型——驾驶策略、驾驶决策和驾驶操作——整合到端到端自动驾驶系统中。首先回顾传统端到端规划系统的操作范式。为了引入类人推理模式,我们开发了以下三个模块:

  1. Strategic Reasoning Injector:通过解释来自VLM生成的复杂交通情境见解,制定高层次的驾驶策略;

  2. Tactical Reasoning Integrator:将战略意图细化为可解释的驾驶选择;

  3. Hierarchical Trajectory Decoder:通过层次化规划——首先建立粗略的运动模式,然后细化详细的轨迹——模拟人类直觉的精炼过程。

初步知识

在基于视觉的端到端自动驾驶系统中,多视角相机图像流首先由图像主干网络(例如ResNet)处理,以提取2D视觉特征。这些特征随后通过视图转换模块被转换为3D或鸟瞰图(BEV)场景表示,捕捉道路布局、智能体位置和车道拓扑等场景几何信息。基于Transformer的任务特定解码器使任务查询(例如智能体查询、地图查询)能够与场景特征交互,建模与规划相关的表示。规划模块初始化一个自车查询嵌入,通过交叉注意力层关注场景特征和任务查询,构建自车特征,使自动驾驶车辆能够理解其状态。最后,轨迹解码器(通常是一个多层感知机MLP)通过从自车特征回归来预测未来的路径点。

Strategic Reasoning Injector

在导航驾驶场景时,人类驾驶员首先通过识别关键交通参与者或相关法规来制定驾驶策略——这些认知过程我们通过VLM生成的推理来复制。这些结构化的见解随后被编码以指导自车查询,作为规划模块的起点。

VLM首先通过提示引导的视觉推理生成文本驾驶策略:

其中   表示VLM处理器,  表示视觉输入,  表示驾驶策略提示模板。

生成的策略文本   随后通过预训练的语言编码器   编码到语义空间。为了弥合语言策略与视觉感知之间的模态差距,我们选择了一个轻量级的适配模块实现为:

同时,我们使用轨迹编码器   将GT轨迹 $ \text{gt}{\text{traj}}  编码为规划特征  F{\text{gt}} $。一个余弦相似性损失确保策略语义与规划动态之间的一致性:

优化后的策略特征随后通过残差更新集成到自车查询中:

这种方法将VLM生成的推理能力注入到自车查询中,从而在与环境特征交互时引导关键规划相关特征的获取。更多细节见附录。

Tactical Reasoning Integrator

虽然驾驶策略提供了语义上下文,但其抽象性质(例如,“让行于接近的车辆”)可能缺乏轨迹规划所需的可操作控制。为弥合这一差距,我们引入了驾驶命令,将语义策略转化为可执行的选择,建立从战略规划到驾驶驾驶决策和操作的双层推理。

VLM通过类别约束的视觉推理生成结构化命令:

其中   表示VLM处理器,  表示视觉输入,  表示命令提示模板,并强制四类输出格式(方向/紧急/车道/速度)。

原始文本输出   经过确定性解析以提取可执行命令:

其中   是为每个类别预定义的正则表达式模式。每个文本命令   随后映射到其类别特定的索引:

其中   是包含所有预定义选项的类别   的命令字典。这种两步转换保证了机器可读性,同时保留了VLM的语义理解。

离散命令经过类别特定的编码和策略融合:

其中   是可学习的嵌入矩阵。编码后的特征随后按车辆控制级别分区:

其中   编码即时反应级别的驾驶决策,而   编码经过深思熟虑后的驾驶操作命令。这两个命令在后续的层次化轨迹解码器中以不同层运作,提供详细和精确的指导,以生成从粗到细的类人轨迹。

Hierarchical Trajectory Decoder

受人类驾驶认知的层次化性质启发——即时反应先于深思熟虑的调整,我们提出了一种两层变分解码器,具有基于驾驶决策和驾驶操作级别的潜在轨迹空间。

第一层解码器使用自车车辆特征和反应级别驾驶命令(方向意图和紧急指示)建模粗略的运动模式:

  1. 分布参数化:将输入映射到潜在的粗略轨迹空间。

  1. 潜在采样:提取全局运动模式。

其中   是自车车辆特征,  表示反应级别命令特征,而粗略潜在代码   捕获粗略的运动模式。

第二层通过结合多源条件并将其映射到细粒度轨迹表示来细化第一层的粗略运动模式:

  1. 层次化细化:基于粗略运动模式和监管级别命令的潜在细粒度轨迹空间。

  1. 潜在采样:采样细粒度轨迹表示。

其中   表示监管级别命令特征,这些特征编码车道管理和速度控制选择。

在从层次化变分过程中获得潜在表示   和   后,下一步是将这些潜在变量解码为实际轨迹序列。我们的轨迹解码扩展了[58]中的时间建模,采用双潜在流处理:

其中   和   分别表示近似运动模式和细化轨迹表示。  表示未来时间步数。  和   对应于粗略和细粒度轨迹预测的潜在特征序列。$ \text{pred}{\text{coarse}}   \text{pred}{\text{fine}} $ 分别表示计划的粗略和细粒度轨迹。

损失函数

我们的复合损失函数整合了五个关键组件以实现有效的层次化学习:

  • 基线模型:保留所有基线模型损失,记为 

  • 策略推理注入损失:包括两个损失:其中   表示我们的层次化轨迹解码器。

  1.  确保策略语义与规划动态之间的一致性(如3.3节定义);

  2.  监督地面真实轨迹编码以确保适当的特征表示:

  • 层次化轨迹解码器损失:包括两个关键损失函数:对于层次化级别  ,KL散度计算为:

    1.  使用两层KL散度公式确保层次化潜在空间的一致性:

    1.  将基线目标应用于预测的粗略轨迹 $ \text{pred}{\text{coarse}}  和贝塞尔曲线拟合的粗略轨迹地面真实值  \text{gt}{\text{coarse}} $:

    整体层次化KL损失计算为:

    实验结果分析

    设置

    基线模型:我们的方法支持不同的端到端规划网络和视觉-语言模型(VLMs)。在本文中,我们使用 VAD 和 UniAD 作为基线,并选择 MiniCPM-Llama3-2.5V 和 Qwen-VL 作为VLMs。

    数据集:我们在 nuScenes数据集 上评估开环规划,该数据集包含1,000个20秒的场景,以2Hz标注,是端到端自动驾驶的关键基准。对于开环和闭环评估,我们使用 Bench2Drive,该数据集包含来自44种场景、23种天气条件和12个CARLA v2城镇的13,638个片段的200万帧。其严格的闭环协议在220条路线上评估E2E-AD模型,确保了公平和全面的性能评估。

    评估指标:对于开环评估,我们使用 L2误差 和 碰撞率。L2误差衡量规划轨迹与地面真实轨迹之间的距离,而碰撞率则量化与交通参与者碰撞的情况。默认情况下,我们使用VAD指标在1秒、2秒和3秒时进行评估。对于闭环评估,我们使用 驾驶评分(Driving Score) 和 成功率(Success Rate)。驾驶评分反映了路线完成情况,同时考虑违规情况,而成功率则是无违规完成路线的百分比。

    实现细节:对于基线模型,我们使用官方代码并遵循其官方实现中指定的超参数。λ₀、λ₁、λ₂、λ₃ 分别设置为1.0、0.5、0.5和1.0;βc设为0.5,βf设为1.0。模型在8块NVIDIA A40 GPU或4块NVIDIA 4090 GPU上使用PyTorch框架进行训练。

    主要结果

    开环评估:为了更好地评估我们框架的有效性,我们在 nuScenes 和 Bench2Drive 数据集上将我们的方法与几种最先进的方法进行了比较。如表1和表2所示,我们的方法相较于基线方法 VAD 和 UniAD 实现了显著改进,尤其是在 L2误差 和 碰撞率 上,改进幅度超过30%。值得注意的是,我们的性能也优于其他基于VLM的方法,例如使用相同基线的 VLP 和 VLM-AD,在nuScenes上实现了最低的平均L2误差(0.48米)和碰撞率(0.15%),在Bench2Drive上达到了0.84米和0.12%。这表明引入人类决策过程使网络在学习驾驶能力方面更加有效。

    闭环评估:尽管开环指标提供了部分性能结果,我们在 Bench2Drive 上进行了闭环评估以评估实际应用能力。结果表明,在集成我们的框架后,驾驶评分和完成路径数量都相较于基线有了显著提升,表明引入人类思维过程成功提高了驾驶掌握能力。

    消融研究

    我们在 Bench2Drive验证集 上进行了消融研究,以评估我们提出的模块。参考VAD,我们在此采用两阶段训练策略以加速实验。所有消融模型共享相同的阶段1检查点以进行公平比较,所有实验均使用NVIDIA 4090 GPU,并基于VAD-base和MiniCPM-Llama3-2.5V基线。

    战略推理注入器的有效性:为了评估战略推理注入器模块的有效性,我们进行了消融研究,通过移除该组件进行实验。如表3(设置0和1)所示,其缺失导致平均L2误差增加了约12%,平均碰撞率增加了19%。这表明战略决策引导了自查询建模,使其能够自适应地优先考虑与当前场景决策过程相关的信息,从而提高整体规划性能。

    Effectiveness of Strategic Reasoning Injector:如表3所示,设置2和6验证了该模块的有效性。在设置2中,我们将嵌入的命令特征与建模的自查询特征连接,并通过解码器获得最终输出。比较设置0和2,我们观察到平均L2误差减少了0.14米,平均碰撞率减少了0.05%。这些结果表明,战术命令比战略决策更接近规划的指导,降低了学习空间的复杂性,并使网络能够做出更有根据的决策。

    层次化轨迹解码器的有效性:为了突出层次化轨迹解码器的重要性,我们用直接基于自特征预测未来轨迹的MLP替换了它。这种修改导致L2误差增加0.07米,碰撞率上升0.07%(设置0 vs. 3),表明直接解码细粒度轨迹的挑战性。缺乏从易到难、从粗到细的分层解码阻碍了模型细化轨迹预测的能力,最终导致性能次优。

    更多分析

    在本节中,我们进一步分析了在 Bench2Drive验证集 上设计的模块。设置与消融研究中的设置一致。更多分析实验和用于定性评估性能和可解释性的可视化结果在附录中提供。

    关于编码驾驶策略特征的相似性损失的讨论:如表4所示,我们移除了编码地面真实轨迹和相似性损失的组件。我们可以观察到L2损失和碰撞率都增加了,这可以归因于由VLM文本编码器编码的战略策略文本特征与端到端网络中使用的感知特征之间的差距。相似性损失帮助适配器弥合这一差距,使文本特征更接近轨迹预测所需的特征。这反过来更好地引导了自查询的学习,提高了性能。

    关于层次化轨迹解码器中不同层数的讨论:如表5所示,我们在解码器中尝试了不同的层数。一层表示细粒度轨迹的直接输出,而两层遵循描述的方法。在三层设置中,我们调整解码器为三层,并使用贝塞尔曲线拟合粗略轨迹生成更粗的地面真实值进行联合监督。实验表明,从一层增加到两层显著提高了性能,但过多的层数引入了不必要的复杂性,导致过拟合和丢失对准确预测至关重要的细粒度细节。

    结论

    本文提出了 ReAL-AD,这是一种推理增强学习框架,通过利用视觉-语言模型(VLMs)在策略、决策和操作层面上的结构化推理,增强了端到端自动驾驶。通过模拟类人的层次化决策过程,ReAL-AD 将战略决策与战术命令以及轨迹优化相结合。在 NuScenes 和 Bench2Drive 数据集上的广泛实验表明,其在轨迹规划准确性和驾驶安全性方面达到了最先进的性能。

    自动驾驶之心

    论文辅导来啦

    知识星球交流社区

    近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

    独家专业课程


    端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

    学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值