自动驾驶超视距VLA如何实现？小鹏NavigScene另辟蹊径！-优快云博客

点击下方卡片，关注“自动驾驶之心”公众号

点击按钮预约直播

当前的自动驾驶系统虽能“看清”周围，却难以像人类一样“预见”远方的道路与决策。局部感知与全局导航的鸿沟，已成为制约其发展的关键瓶颈。

我们非常荣幸地邀请到 NavigScene 论文的第一作者——Qucheng Peng，为我们深度解析他们团队如何开创性地弥合这一差距，让自动驾驶系统真正拥有“高瞻远瞩”的导航思维。

本周五晚七点半直播将围绕以下重磅成果展开：

自动驾驶系统在基于局部视觉信息的问答（Q&A）、感知、预测和规划方面已取得显著进展，然而，它们在融入人类驾驶员日常利用的更广泛的导航上下文信息方面仍存在困难。本文通过提出 NavigScene 来解决局部传感器数据与全局导航信息之间的这一关键差距。

NavigScene 是一个辅助性的、由导航引导的自然语言数据集，它在自动驾驶系统内部仿真了一个类人化的驾驶环境。此外，本文还开发了三种互补的范式来利用 NavigScene： (1) 导航引导推理 (Navigation-guided Reasoning)：通过将导航上下文融入提示方法，增强视觉语言模型（VLM）的推理能力； (2) 导航引导偏好优化 (Navigation-guided Preference Optimization)：一种强化学习方法，它扩展了直接偏好优化（DPO），通过建立对导航相关信息摘要的偏好关系，来改进视觉语言模型的响应； (3) 导航引导的视觉-语言-动作模型 (Navigation-guided Vision-Language-Action model, NVLA)：通过特征融合，将导航引导和视觉语言模型与传统（端到端）驾驶模型相集成。

论文标题：NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving

论文链接：https://arxiv.org/abs/2507.05227

分享介绍