港中文最新!ReAL-AD:迈向类人推理的端到端自动驾驶,轨迹性能提升30%(ICCV‘25)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享上海科技大学&港中文ICCV'25中稿的最新工作—ReAL-AD!迈向类人推理的端到端自动驾驶。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>自动驾驶前沿信息获取自动驾驶之心知识星球

论文作者 | Yuhang Lu等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

端到端自动驾驶作为一种统一感知、预测和规划的方法,能够在统一框架内减少信息损失并提高适应性,近年来备受关注。然而,现有方法通常依赖于固定且稀疏的轨迹监督,这限制了它们捕捉人类驾驶员自然采用的层次化推理过程的能力。为了弥补这一差距,上海科技大学和港中文的团队提出了ReAL-AD,这是一种推理增强学习框架,基于三层人类认知模型(驾驶策略、驾驶决策和驾驶操作)来构建自动驾驶中的决策过程,并引入视觉-语言模型(VLMs)以增强环境感知和结构化推理能力。具体而言,我们引入了:(1) 策略推理Injector:通过解析VLM生成的复杂交通情境见解来制定高层次的驾驶策略;(2) 驾驶推理Integrator:将行驶意图细化为可解释的驾驶选择,如变道、超车和速度调整;(3) 层次化轨迹解码器:逐步将驾驶决策转化为精确的控制动作,以实现流畅且类人的轨迹执行。广泛的评估表明,集成我们的框架提高了规划准确性和安全性超过30%,使得端到端自动驾驶更加可解释,并与类人层次推理对齐。

  • 论文链接:https://arxiv.org/abs/2507.12499

  • 主页链接:https://4dvlab.github.io/project_page/realad

引言

端到端自动驾驶因其优势,如最小化信息损失和简化系统架构,受到了广泛关注。然而,现有方法面临根本性的局限。最显著的是,它们依赖于固定且稀疏的轨迹监督,这无法复制人类驾驶员内在的结构化认知推理过程——这一过程涉及对情境关系(例如,交通规则、交互意图)的分层理解以及适应性决策层次。

最近的研究引入视觉-语言模型(VLMs),旨在通过利用其语义推理能力和跨模态对齐来解决这些挑战。大多数研究将VLMs视为辅助模块,提供额外的语义线索以增强感知和规划。这些方法将语义推理视为一个孤立的预处理步骤,而不是有机地嵌入到决策层次中,在该层次中,战略规划、驾驶决策和操作控制协同工作。

这种缺乏结构化多阶段推理的现象阻碍了泛化能力,并限制了当前基于VLM的解决方案在多样化的现实世界场景中的有效性。

那么人类驾驶员是如何进行决策的呢?如图1所示,人类驾驶员以结构化、分层的方式做出决策,从高层次推理逐步细化到精确执行。在驾驶策略层面,驾驶员分析整体驾驶场景以建立战略理解。这包括识别关键交通元素、优先考虑相关目标,并结合交通规则和道路条件等情境因素。这种战略意识为后续决策奠定了基础。在驾驶决策层面,驾驶员将战略理解转化为驾驶选择,例如决定是否保持车道、超车或调整速度。这些决策是根据交通流、周围车辆和预测的交互动态做出的,以确保安全高效的机动。在驾驶操作层面,驾驶员将驾驶决策细化为精确的车辆控制动作。这包括调整转向、油门和刹车以执行预期的机动动作,进行包括变道在内的横向控制以保持稳定和安全。然而,大多数现有的端到端自动驾驶系统未能显式建模这种分层认知过程。相反,它们通常依赖于没有结构化推理的直接轨迹预测,导致规划次优且缺乏类人决策的粒度。

基于这一见解,我们提出了ReAL-AD,这是一种用于自动驾驶的新型推理增强学习框架,利用视觉-语言模型(VLMs)的能力将类人的分层决策嵌入到端到端自动驾驶系统中。受人类驾驶员结构化认知过程的启发,ReAL-AD引入了一个多层架构,显式建模从战略推理到驾驶执行的决策过程,从而在动态环境中提高可解释性和适应性。

具体而言,策略推理注入器从VLM生成的见解中提取高层次的情境意识,并将其编码为以自车为中心的查询以指导下游规划。驾驶推理整合器将这些高层次的决策细化为结构化的、可解释的驾驶控制命令,确保与现实世界驾驶约束的可行性和一致性。最后,层次化轨迹解码器采用分层变分解码器,通过两阶段过程逐步细化轨迹规划,确保高层次战略意图与低层次驾驶执行之间的一致性。通过在所有决策层级整合基于VLM的推理,ReAL-AD显著提高了在复杂动态交通场景中的可解释性、适应性和整体驾驶性能。

我们在NuScenes和Bench2Drive数据集上进行了广泛的实验,结果证明了我们的方法相对于现有方法的优越性能。与基线方法相比,我们的方法在L2误差上减少了33%,碰撞率降低了32%,显著提高了轨迹准确性和驾驶安全性。此外,全面的消融研究系统地评估了每个组件的贡献,进一步验证了我们框架的有效性。我们的贡献可以总结如下:

  • 提出了ReAL-AD,这是一种新颖的推理增强端到端自动驾驶框架,明确引入了分层决策,并将轨迹规划与人类认知过程对齐。

  • 引入了用于VLM驱动决策整合的策略推理注入器、用于结构化控制的驾驶推理整合器,以及用于分层轨迹细化的层次化轨迹解码器,确保从推理到执行的一致性。

  • 在NuScenes和Bench2Drive数据集上实现了轨迹规划准确性和安全性指标超过30%的提升,同时消融研究确认了每个组件的贡献。

相关工作回顾

端到端自动驾驶

端到端自动驾驶规划方法通过同时训练多个模块来实现其最终目标,减少了在流水线过程中的信息损失,使其成为热门研究领域。ST-P3引入了一种设计,通过整合多个辅助信息或任务来增强规划性能。UniAD在开环评估中展示了出色的性能。随后VAD引入了紧凑的矢量化场景表示,这不仅提高了规划效率,还降低了计算成本。PARA-Drive研究了在端到端框架内辅助任务设计顺序的影响。GenAD将自动驾驶建模为未来生成问题,在结构化潜在轨迹空间内同时进行运动预测和自车规划。此后,诸如VADv2和DiffusionDrive等研究探索了将概率建模整合到规划中以提高准确性。

然而,这些方法依赖于一组固定的未来自车轨迹作为真实值,导致监督稀疏。这在人类驾驶员使用复杂决策的情况下存在问题,因为单独的自车轨迹无法捕捉到这些复杂决策。这限制了自动驾驶系统的学 习和泛化能力。相比之下,我们的方法利用视觉-语言模型(VLMs)来更深入地理解驾驶行为。通过整合高维策略和驾驶命令,并通过分层解码器以更细粒度预测轨迹,网络模仿了人类的推理过程,增强了规划决策和整体自动驾驶性能。

用于自动驾驶的VLMs

近年来,视觉-语言模型(VLMs)在广泛的任务中展示了卓越的性能,并将它们整合到自动驾驶系统中已成为重要的研究领域。许多研究将VLMs视为接收驾驶场景图像和文本提示作为输入,并生成驾驶决策作为输出的代理。例如,Drive-with-LLMs将感知信息编码到潜在空间,然后输入到大型语言模型(LLM)中以预测未来规划轨迹。DriveGPT4采用前视相机视频输入,利用VLMs预测用于规划的控制信号并提供决策解释。LanguageMPC将历史真实感知数据和高清地图转换为语言格式,使用链式推理分析驾驶场景并生成规划动作。AgentDriver将驾驶情境转换为具有类人智能的文本描述,然后使用LLM进行推理和规划。此外,DriveMLM验证了在闭环仿真环境中基于VLM的规划模型的有效性。然而,尽管VLMs可以捕捉复杂的视觉和语言线索,但它们往往缺乏对驾驶行为潜在物理特性和约束的全面掌握,以及有限的3D空间理解能力,导致与考虑更全面环境反馈的端到端系统相比,轨迹预测的准确性和安全性较低。

另一种方法是将VLMs的决策能力作为额外输入整合到端到端自动驾驶系统中。这种方法主要集中在利用VLM输出来细化或指导这些系统的学习过程。DriveVLM将VLM用作较慢的系统来生成驾驶轨迹,必要时使用互补网络作为参考。VLM-AD将VLM用作教师生成自由形式的推理并构建动作注释,从而辅助端到端网络的学习。VLP通过加强车辆上下文和环境的理解来增强自动驾驶系统。Senna将高层规划与低层轨迹预测解耦,创建了一个更加模块化和可解释的规划框架。现有方法通过蒸馏和对比学习来整合决策特征,但将语义推理视为一个独立的预处理步骤,限制了在现实世界场景中的泛化能力。为了解决这个问题,我们利用VLM生成驾驶策略和驾驶命令,并引入一个分层轨迹解码器将这些决策转化为精确的控制动作,模拟人类驾驶的思考过程。

算法详解

概述

在本节中,我们提出了一个基于视觉-语言模型(VLM)的类人推理增强学习框架,将三层人类认知模型——驾驶策略、驾驶决策和驾驶操作——整合到端到端自动驾驶系统中。首先回顾传统端到端规划系统的操作范式。为了引入类人推理模式,我们开发了以下三个模块:

  1. Strategic Reasoning Injector:通过解释来自VLM生成的复杂交通情境见解,制定高层次的驾驶策略;

  2. Tactical Reasoning Integrator:将战略意图细化为可解释的驾驶选择;

  3. Hierarchical Trajectory Decoder:通过层次化规划——首先建立粗略的运动模式,然后细化详细的轨迹——模拟人类直觉的精炼过程。

初步知识

在基于视觉的端到端自动驾驶系统中,多视角相机图像流首先由图像主干网络(例如ResNet)处理,以提取2D视觉特征。这些特征随后通过视图转换模块被转换为3D或鸟瞰图(BEV)场景表示,捕捉道路布局、智能体位置和车道拓扑等场景几何信息。基于Transformer的任务特定解码器使任务查询(例如智能体查询、地图查询)能够与场景特征交互,建模与规划相关的表示。规划模块初始化一个自车查询嵌入,通过交叉注意力层关注场景特征和任务查询,构建自车特征,使自动驾驶车辆能够理解其状态。最后,轨迹解码器(通常是一个多层感知机MLP)通过从自车特征回归来预测未来的路径点。

Strategic Reasoning Injector

在导航驾驶场景时,人类驾驶员首先通过识别关键交通参与者或相关法规来制定驾驶策略——这些认知过程我们通过VLM生成的推理来复制。这些结构化的见解随后被编码以指导自车查询,作为规划模块的起点。

VLM首先通过提示引导的视觉推理生成文本驾驶策略:

其中   表示VLM处理器,  表示视觉输入,  表示驾驶策略提示模板。

生成的策略文本   随后通过预训练的语言编码器   编码到语义空间。为了弥合语言策略与视觉感知之间的模态差距,我们选择了一个轻量级的适配模块实现为:

同时,我们使用轨迹编码器 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值