自动驾驶超视距VLA如何实现?小鹏NavigScene另辟蹊径!

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>直播和内容获取转到 → 自动驾驶之心知识星球

点击按钮预约直播

当前的自动驾驶系统虽能“看清”周围,却难以像人类一样“预见”远方的道路与决策。局部感知与全局导航的鸿沟,已成为制约其发展的关键瓶颈。

我们非常荣幸地邀请到 NavigScene 论文的第一作者——Qucheng Peng,为我们深度解析他们团队如何开创性地弥合这一差距,让自动驾驶系统真正拥有“高瞻远瞩”的导航思维。

本周五晚七点半直播将围绕以下重磅成果展开:

自动驾驶系统在基于局部视觉信息的问答(Q&A)、感知、预测和规划方面已取得显著进展,然而,它们在融入人类驾驶员日常利用的更广泛的导航上下文信息方面仍存在困难。本文通过提出 NavigScene 来解决局部传感器数据与全局导航信息之间的这一关键差距。

NavigScene 是一个辅助性的、由导航引导的自然语言数据集,它在自动驾驶系统内部仿真了一个类人化的驾驶环境。此外,本文还开发了三种互补的范式来利用 NavigScene: (1) 导航引导推理 (Navigation-guided Reasoning):通过将导航上下文融入提示方法,增强视觉语言模型(VLM)的推理能力; (2) 导航引导偏好优化 (Navigation-guided Preference Optimization):一种强化学习方法,它扩展了直接偏好优化(DPO),通过建立对导航相关信息摘要的偏好关系,来改进视觉语言模型的响应; (3) 导航引导的视觉-语言-动作模型 (Navigation-guided Vision-Language-Action model, NVLA):通过特征融合,将导航引导和视觉语言模型与传统(端到端)驾驶模型相集成。

论文标题:NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving

论文链接:https://arxiv.org/abs/2507.05227

分享介绍

更多精彩回顾

🚀 直播精华看不够?完整版深度内容已独家上线知识星球「自动驾驶之心」!涵盖所有技术细节、QA及未公开彩蛋。深度解析!

DriveBench:VLM在自动驾驶中真的可靠吗?(ICCV'25)

硬核夜话:和一线量产专家深入聊聊自驾数据闭环工程

AI Day直播 | LangCoop:自动驾驶首次以“人类语言”的范式思考

干货满满,快来加入

END

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值