小鹏最新！NavigScene：全局导航实现超视距自动驾驶VLA（ACMMM‘25）-优快云博客

本文链接：https://blog.youkuaiyun.com/CV_Autobot/article/details/149412929

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享中佛罗里达大学和小鹏汽车ACMMM25中稿的最新工作 - NavigScene！连接局部感知和全局导航，实现超视距自动驾驶！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Qucheng Peng等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

自动驾驶系统在基于局部视觉信息的感知、预测和规划方面取得了显著进展，但它们难以整合人类驾驶员通常使用的更广泛的导航背景。为此，小鹏汽车的团队提出了NavigScene，期望解决局部传感器数据与全局导航信息之间的关键差距，NavigScene是一种辅助的导航引导自然语言数据集，可在自主驾驶系统中模拟类人驾驶环境。此外开发了三种互补的方法来利用NavigScene：（1）导航引导推理，通过在提示方法中结合导航上下文来增强视觉-语言模型；（2）导航引导偏好优化，这是一种强化学习方法，扩展了直接偏好优化，通过为导航相关汇总信息建立偏好来改进视觉-语言模型的响应；以及（3）导航引导视觉-语言-动作模型，将导航指导和视觉-语言模型通过特征融合与传统驾驶模型集成。实验表明，NavigScene通过实现超越视觉范围的推理能力和提高对多样化驾驶场景的泛化能力，显著提高了感知、预测、规划和问答任务的性能。这项工作代表了构建能够以更高的可靠性和安全性在复杂、陌生环境中导航的更全面的自主驾驶系统的重要一步。

论文链接：https://arxiv.org/abs/2507.05227

引言

自动驾驶系统在感知、预测和规划方面取得了显著进展，使车辆能够感知其即时环境，预测附近物体的移动，并计划适当的行动。这些系统可以分为两类：用于问答任务的视觉-语言模型（VLMs）和用于感知、预测和规划的端到端驾驶模型。

然而，这些方法主要依赖于代理或环境在视野范围内的输出（通常在100至150米），这导致在纳入类人长期规划所需的全局上下文信息时存在一个关键缺口。这种限制制约了VLMs和端到端模型的能力，阻碍了它们进行前瞻性推理和适应陌生场景的能力。

在现实世界的驾驶场景中，Google Maps等导航应用程序是提供人类驾驶员所需全局上下文信息的关键工具。这些应用程序传达自车预期未来操作的信息（例如左转、右转、直行），以及三个关键信息：即将到来操作的距离、交叉口类型和交通信号的存在。值得注意的是，距离信息通常超出了车载传感器如摄像头或LiDAR的视觉感知能力，因此被归类为超出视觉范围（BVR）信息。尽管这对于有效的规划和决策至关重要，但BVR信息在自主驾驶研究中仍未得到充分探索。当前的问答数据集和模型主要关注逐帧的感知和预测，或者最多扩展到下一帧进行监督，而没有充分解决全面场景理解和长期规划所需的全局导航背景。

在图1中，我们展示了导航指导如何增强问答性能和端到端规划。在这个场景中，导航提供了关键信息，指示了一个位于150米前方的交叉口，自车必须在此执行右转。然而，由于车载传感器的有限感知范围——通常限制在100至150米之间——自车无法提前检测到这个交叉口，以启动必要的车道变更进入右转车道。相反，通过结合来自导航工具的全局BVR知识，规划器主动指导车辆提前进入右转车道，展示了导航引导规划的切实好处。

为了解决这一差距，我们提出了NavigScene，这是一个基于nuScenes和NAVSIM数据集的辅助导航数据集。通过自然语言导航指令，我们在自主驾驶系统中模拟了一种类似人类的驾驶环境，有效地模仿了Google Maps等提供BVR知识的导航工具，这对驾驶决策和规划至关重要。NavigScene包括两个子集：NavigScene-nuScenes和NavigScene-NAVSIM。我们的数据集通过提供配对数据桥接了局部传感器数据和全局导航背景之间的断层：多视角传感器输入（图像或视频）与捕捉全局驾驶环境的相应自然语言导航指导。这种精心构建的配对使得自主系统能够更全面地推理驾驶场景，并做出更明智的规划决策，从而模拟由导航应用引导的人类行为。

基于这种类人辅助数据集NavigScene，我们提出了三种范式，以在诸如问答、感知、预测和规划等自主驾驶任务中利用导航指导。首先是导航引导推理，可以通过导航引导监督微调（NSFT）实现驾驶相关问答任务。通过在提示中加入导航指导，我们启用了更全面的推理，既考虑了局部视觉线索，又考虑了全局导航背景，显著提高了模型回答需要超出即时视觉范围知识问题的能力。第二种是一种强化学习方法，名为导航引导偏好优化（NPO）。我们引入了一个辅助文本摘要任务来增强直接偏好优化（DPO），通过在视觉-语言模型生成的摘要答案和导航指导之间建立偏好关系，从而提高视觉-语言模型的BVR推理和泛化能力。VLMs的后训练包括NSFT和NPO。第三种是导航引导视觉-语言-动作（NVLA）模型。我们开发了一个VLA基线架构，通过特征融合将导航指导和视觉-语言模型与传统端到端驾驶模型集成，创建了更强大的表示，用于感知、预测和规划等下游任务。本文的主要贡献可以总结为三个方面：

提出了NavigScene，这是一种新颖的辅助数据集，将局部多视角传感器输入与全局自然语言导航指导配对，解决了自主驾驶中局部感知和全局导航背景之间的关键差距。
在三种互补的范式中实现了NavigScene：导航引导推理、导航引导偏好优化和导航引导视觉-语言-动作模型，增强了自主驾驶系统的推理和泛化能力，超越了视觉范围限制。
在问答任务和端到端驾驶任务上进行了全面实验——包括感知、预测和规划——证明了将全局导航知识整合到自主驾驶系统中所带来的显著性能提升。

基于导航的数据集：NavigScene

现有的自动驾驶数据集主要强调关键帧的局部级描述，这些描述服务于感知任务。然而，它们未能充分解决场景理解和决策所需的超出视觉范围（BVR）知识问题。鉴于导航应用在现实世界驾驶场景中的重要性，特别是在经验丰富的驾驶员穿越陌生区域或评估当前道路状况时，为了模拟类人驾驶环境并弥合这一差距，我们提出了NavigScene，这是一种辅助的导航引导自然语言数据集，通过模拟导航应用提供全局上下文信息，从而增强自主系统在复杂驾驶环境中利用BVR知识进行推理和泛化的能力。

我们提出的NavigScene数据集来源于nuScenes数据集和NAVSIM数据集中的场景，并包含两个子集：NavigScene-nuScenes和NavigScene-NAVSIM。一个场景的生成过程如图2所示。

视觉生成

为了建立每个场景，我们首先确定起点和终点的纬度和经度。此计算结合了原点的坐标以及从该原点出发的起点和终点的三维平移向量。对于具有坐标（φ, λ）的原点，其中φ表示纬度，λ表示经度（均以十进制度数表示），以及以米为单位的平移向量（Δx, Δy, Δz）（其中Δx表示东向分量，Δy表示北向分量，Δz表示上向分量），起点或终点的坐标（φ′, λ′）可以通过以下公式计算：

其中R表示地球半径，约为6,378,137米。虽然Δx和Δy分别代表东向和北向方向上的平移，但Δz未被纳入纬度和经度的计算中，因为它不影响水平定位。

我们利用Google Maps API生成导航视频。Direction API提供精确路线，Static Map API获取沿路线的连续图像，Distance Matrix API估算行驶距离和时间。假设恒定速度，我们合成模拟驾驶体验的真实感导航视频。为了便于分析，我们在这些视频中均匀采样F帧，用于通过VLM进行后续文本生成。

文本生成

虽然视觉生成（图2中的A部分）将完整的导航视频与VLM或端到端架构集成面临对齐困难的重大挑战。为了解决这一局限性，我们使用VLMs（图2中的B部分）将连续图像转换为自然语言导航描述。对于每组帧序列，我们通过图2中显示的特定提示生成N个候选导航方案。该提示首先分析交叉路口或互通口以确定行驶方向，然后根据帧间隔估计距离。

在获得N个候选响应后，我们实施了一种新颖的选择策略来识别最佳描述。我们定义了三个相似度指标Sinter(·, ·)、Sdist(·, ·)和Sword(·, ·)：

Sinter(·, ·)表示交叉路口相似度，强调方向关键词准确性。对于候选ai，提取方向关键词为Kinter(ai)=(mi1, mi2,...)，则ai和aj之间的交叉路口相似度为：
Sdist(·, ·)表示距离值相似度。ai中的距离值为Kdist(ai)=(ni1, ni2,...)，则距离相似度为：
Sword(·, ·)表示词汇相似度，使用Jaccard指数计算：

候选之间的整体相似度得分Sover(·, ·)为：

由于方向准确性最为关键，其次是距离精度和词汇相似度，我们分配权重使得η1 > η2 > η3，然后通过识别累计相似度最高的候选来选择最优答案a*：

这种方法识别出最佳候选，作为最终导航以模拟类人驾驶环境。

算法详解

导航引导推理

在传统的自动驾驶问答任务中，多视角图像或视频与问题一起作为输入提供给视觉-语言模型（VLM），如图3a所示。然而，这种推理范式局限于视野范围内的信息，忽略了对于长期规划至关重要的超出视觉范围（BVR）信息。为了解决这一限制，我们在提示方法中引入了导航指导（如图3b所示），从而丰富了包含必要全局信息的推理过程。

导航引导推理可以表示为：

其中是视觉-语言模型，表示自然语言输出作为答案，表示多视角图像或视频，是导航指导，是问题。和的连接作为的提示。此范式应用于本文驾驶相关问答任务的导航引导监督微调（NSFT）中。

导航引导偏好优化

虽然NSFT以增强VLM的推理能力，但这种方法在泛化到新场景时存在局限性。对于参数少于10B的VLM，监督微调会限制其泛化能力，而推理能力则受到参数规模的限制。为了解决这些不足，我们提出了导航引导偏好优化（NPO），这是直接偏好优化（DPO）的一种扩展，应用于NSFT之后，以提高在新导航场景中的泛化性能。

NPO通过集成一个辅助文本摘要任务来结合导航相关知识。在NPO中，VLM仍然处理多视角图像和问题作为输入。我们在详细答案及其摘要版本之间建立一种偏好关系。摘要使用VLM 在线生成：

其中是来自监督微调的原始答案，是提示“将这个关于驾驶的问题的答案进行总结，使其简洁而不丢失重要信息。”

根据DPO方法，我们初始化了一个可学习的奖励模型和一个冻结的参考模型。因此，我们可以分别从这两个VLM中获得和。结合导航指导，我们使用互信息量化摘要答案的质量：

公式（9）有两个目标：与原始答案相比简化摘要答案，同时增强摘要答案与导航指导之间的相关性。方程（9）进一步简化为：

通过引入这种测量方式，我们定义了对摘要答案的奖励：

其中是权衡超参数。该奖励不仅衡量了奖励模型和参考模型之间摘要答案的差异，还衡量了两个摘要答案之间指导相关性的差异。

同样，原始答案的奖励为：

因此，NPO的目标函数被公式化为：

其中是Sigmoid函数，表示包含元组的偏好数据集（多视角图像、问题、答案、奖励模型的摘要、参考模型的摘要）。

在我们提出的NPO方法中，我们为奖励模型和参考模型引入了一个辅助任务——导航引导文本摘要。这一战略性添加引导奖励模型关注与指导相关的知识，显著增强了其生成与驾驶相关且简洁的回答的能力，同时保留了符合导航需求的关键信息。当与端到端驾驶模型集成时，这一范式显著提高了整个自动驾驶系统的泛化能力。

导航引导视觉-语言-动作模型

除了问答任务外，导航指导还显著增强了端到端驾驶系统的性能。依赖于传感器数据（多视角图像或视频）的传统端到端模型在推理能力和对新场景的泛化方面表现较差。为了解决这些不足，我们提出了一种导航引导的视觉-语言-动作（NVLA）模型，将导航指导与视觉-语言模型集成到端到端驾驶框架中。

在传统端到端模型中，驾驶任务的输出可以表示为：

其中表示多视角图像或视频，是BEV编码器，是特定任务网络，是没有导航指导的任务的输出。

在我们的导航引导VLA模型中，我们结合了通过NSFT和NPO后训练的VLM以及导航指导。现代VLM的输出概率分布通常具有高维性，因为它们的大词汇空间（例如，LlamaAdapter的输出概率维度为32,000），这使得直接与BEV特征（如SparseDrive等模型中的典型256维）对齐或融合变得困难。为了解决这一不匹配问题，我们引入了一个可学习的稀疏性降低MLP 来压缩VLM特征的维度，随后是一个可学习的特征融合MLP 。完整的处理过程表示为：

这一整合过程如图4所示。

实验结果分析

问答任务的定量结果

在表1中，我们将通过NSFT和NPO后训练的VLMs与仅使用DriveLM的基线模型进行了比较，涵盖了三个开源的VLMs。按照DriveLM的评估协议，我们采用了包括BLEU-4、METEOR、CIDEr、ROUGE_L[22]和SPICE在内的指标，以及GPT评分和完整性(Comp.)。结果显示，NavigScene显著提升了所有这些VLMs在与驾驶相关的响应质量。

在表2中，我们展示了NuInstruct的结果，将基线VLMs与通过NavigScene后训练的模型进行了比较。根据NuInstruct的评估协议，我们通过测量距离(Dis)、速度(Spe)、实例数量(Ins)、最近物体识别(Clo)、状态识别(Sta)和同车道检测(SaR)等子任务来评估感知能力。对于预测任务，我们评估了运动轨迹(Mot)和未来状态(Sta)的预测。风险评估则在六个维度上进行：接近(App)、换道(Lan)、正在进行的操作(Onc)、过马路(Cro)、超车(Ove)和制动(Bra)。结果表明，NavigScene显著提高了所有测试的VLMs在驾驶相关问答任务中的推理能力。

问答任务的定性结果

在图5和图6中，我们展示了整合NavigScene前后VLM响应的例子。NavigScene提供的超出视野范围(BVR)知识显著增强了VLM的推理能力，产生了更加完整和准确的答案。

端到端驾驶的定量结果

在表3中，我们比较了各种整合不同VLA的端到端驾驶配置与原始端到端模型在开环和闭环规划中的表现。对于开环评估，我们去除了自车状态并采用UniAD的评测方法。我们的结果表明，将端到端模型与VLMs和NavigScene结合显著提高了性能，特别是Qwen2.5-7B在L2和碰撞率指标上表现出显著的提升。对于闭环评估，我们使用多个指标评估规划性能：无责任碰撞(NC)、可行驶区域合规(DAC)、碰撞时间(TTC)、舒适度(Comf.)、自我进展子评分(EP)和预测驾驶员模型得分(PDMS)，所有结果均以百分比形式报告。将VLMs与NavigScene结合显著提高了系统性能，特别是在DAC、EP和PDMS指标上，这些指标与类人驾驶能力和准确的导航解释密切相关。这些结果突出了在闭环规划中整合BVR知识的重要性。这些结果基于DriveLM，使用NuInstruct的附加结果可在SM中找到。

在表4中，我们比较了各种端到端驾驶配置在检测、跟踪、映射和运动预测任务中的表现。我们观察到NavigScene甚至在非规划任务如检测中也提高了驾驶系统的性能。特别是，在使用Qwen2.5-7B进行检测mAP时，我们在VAD的基础上提高了0.09，在SparseDrive的基础上提高了0.04。使用NuInstruct的附加结果可在SM中找到。

端到端驾驶的定性结果

在图7中，我们展示了两个开环规划的例子，比较了整合NavigScene前后性能的变化。利用来自NavigScene的超出视野范围的知识使自动驾驶系统能够生成更准确的驾驶指令和路线规划。这一点在右图中尤为明显，车辆在全局导航指导的帮助下提前变道，正确预见到右转。SM中展示了更多的例子。

在图8中，我们展示了两个闭环规划的例子，演示了整合NavigScene的影响。在左图示例中，车辆打算切换到快速车道但应继续直行。没有导航指导的情况下，驾驶模型错误地向左转。同样，在右图示例中，车辆需要在即将到来的交叉口右转。没有NavigScene时，它会继续直行一段较长的距离，而有了NavigScene，它会适当减速并等待右转的机会。额外的例子显示在SM中。

问答任务的消融研究

在表5和表6中，我们分别在DriveLM-nuScenes和NuInstruct数据集上进行了消融研究。我们检查了四种实验设置：(1) 没有NSFT和NPO，其中VLM是在没有NavigScene的情况下进行微调；(2) 只有NSFT，其中VLM使用NavigScene进行微调；(3) 只有NPO，其中VLM首先在没有NavigScene的情况下进行微调，然后使用NPO和NavigScene进行训练；以及(4) 同时使用NSFT和NPO，其中VLM首先使用NavigScene进行微调，随后使用NPO和NavigScene进行训练。

基于表格中的结果，无论是在开环还是闭环规划中，整合NSFT和NPO技术都能带来明显的性能提升，这在VAD和SparseDrive端到端模型中均有体现。我们观察到SparseDrive总体上优于VAD，而Qwen2.5-7B在所有配置中始终优于Llama-Adapter。值得注意的是，即使是没有整合VLM的基线系统("None")也表现得相当不错，但通过适当的后训练技术（NSFT+NPO）整合VLM提供了显著的提升，特别是在降低碰撞率和提高轨迹准确性方面。NSFT和NPO的协同效应表明，针对导航的微调接着进行偏好优化可以创建最有效的自动驾驶系统。

开环和闭环规划的消融研究

在表7中，我们分别在nuScenes上进行了开环规划和在NAVSIM上进行了闭环规划的消融研究。我们检查了五种实验设置：(1) 没有VLM，仅应用端到端模型；(2) 没有NSFT和NPO，其中VLM在没有NavigScene的情况下进行微调；(3) 只有NSFT，其中VLM使用NavigScene进行微调；(4) 只有NPO，其中VLM首先在没有NavigScene的情况下进行微调，然后使用NPO和NavigScene进行训练；以及(5) 同时使用NSFT和NPO，其中VLM首先使用NavigScene进行微调，随后使用NPO和NavigScene进行训练。所有VLM都被冻结，然后与端到端模型连接，构建用于自动驾驶的VLA模型。

基于表7中的消融研究，无论是在开环还是闭环规划中，整合NSFT和NPO技术都能带来明显的性能提升，这在VAD和SparseDrive端到端模型中均有体现。我们观察到SparseDrive总体上优于VAD，而Qwen2.5-7B在所有配置中始终优于Llama-Adapter。值得注意的是，即使是没有整合VLM的基线系统("None")也表现得相当不错，但通过适当的后训练技术（NSFT+NPO）整合VLM提供了显著的提升，特别是在降低碰撞率和提高轨迹准确性方面。NSFT和NPO的协同效应表明，针对导航的微调接着进行偏好优化可以创建最有效的自动驾驶系统。

端到端驾驶的跨城市泛化

在表8中，我们展示了在nuScenes数据集中两个城市的跨城市泛化结果。我们检查了两种转移任务：波士顿→新加坡和新加坡→波士顿。在第一个任务中，模型在波士顿数据上进行训练，并在新加坡数据上以零样本的方式进行评估，而在第二个任务中，这一过程相反。附加结果展示在SM中。

跨城市泛化结果表明，NPO对自动驾驶系统的泛化能力具有显著影响。当在波士顿训练并在新加坡数据上测试模型时，以及反之亦然的情况下，配备NPO的VLA模型始终优于原始端到端架构（VAD和SparseDrive）和未配备NPO的VLA模型。这些结果突显了NPO在增强自动驾驶系统在陌生城市环境中导航的能力方面的有效性，尤其是在面对不同的交通模式和基础设施设计时。

结论

在本文中，本文解决了一个当前自动驾驶系统中的关键局限性：局部传感器数据与全局导航背景之间的脱节。首先，我们引入了NavigScene，这是一种辅助性的导航引导自然语言数据集，通过模拟类人驾驶环境来弥合这一差距。此外，基于NavigScene的三种互补范式：导航引导推理、导航引导偏好优化和导航引导视觉-语言-动作模型，我们在问答、感知、预测和规划等驾驶相关任务中实现了显著改进。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com