登顶 NAVSIM!博世最新IRL-VLA:逆强化学习重构自动驾驶VLA闭环训练

博世IRL-VLA提升自动驾驶性能

引入

近年来,随着端到端自动驾驶技术的快速发展,吸引了来自工业界和学术界的广泛关注。此外,随着人类专家驾驶数据的逐渐积累,从大规模数据中学习类人的驾驶策略具有巨大的发展潜力。

尽管端到端自动驾驶技术取得了不少令人满意的成绩,但在处理长尾驾驶场景时性能会显著下降。目前,已经有一些方法试图利用视觉-语言模型中嵌入的广泛世界知识来缓解这一问题,即视觉-语言-动作模型。该模型以视频数据作为输入,直接输出驾驶轨迹和动作,如图1所示。

图1|VLA自动驾驶框架的不同范式

图1(a)采用了模仿学习的方法实现了出色的性能,但由于开环框架内的模仿学习倾向于复制数据集中记录的行为,导致模型的全部潜力仍未得到充分挖掘。

图1(b)让模型在模拟环境中进行自主的探索,模拟在现实世界中观察到的体验式学习过程,但仍存在现实和仿真之间的领域差异以及巨大的计算开销。

针对上述提到的相关问题和挑战,本文提出了一种基于逆向强化学习的新型闭环强化学习框架IRL-VLA。本文提出的方法在NAVSIM v2端到端自动驾驶基准测试中取得了SOTA的性能。

本文的主要贡献如下

 本文提出了IRL-VLA,一个专为VLA模型设计的基于模拟器反馈进行强化学习的框架。为了取代计算成本高昂的基于模拟器的奖励计算,本文引入了一种基于逆向强化学习的高效奖励世界模型,从而实现可扩展且有效的奖励估计

 本文提出了一种新颖的VLA模型,该模型在模仿学习和强化学习环境中均表现出色,能够在不同的训练范式中实现最佳性能

 该框架在CVPR2025挑战赛的NAVSIM v2端到端驾驶基准测试中取得了优异的表现。这些结果证明了本文方法的有效性和通用性

本文提出的IRL-VLA算法模型的整体网络架构如图2所示。

图2|IRL-VLA算法模型框架图

模仿策略学习

受具身智能领域的启发,本文提出了一种高效的自动驾驶VLA模型,该模型包含三个不同的模块,分别是语义推理模块、3D推理模块以及统一扩散规划器

 语义推理:本文提出了VLM命令引导模块。该模块基于Senna-VLM框架构建,利用多图像编码策略和多视图提示机制,实现高效、全面的场景理解

 3D推理:本文使用BEV视觉编码器和适配器将多视角图像编码为BEV空间中的特征图。然后,利用一组检测标记和地图标记从BEV特征空间中学习矢量化的地图元素和代理运动信息

 统一扩散规划器为了生成多样化且信息丰富的未来轨迹分布,本文采用基于扩散的方法,处理带有高斯噪声的锚点提议轨迹

逆环境学习

 奖励数据收集:要开发有效的奖励世界模型,全面的数据集至关重要。为了增强得分和轨迹的多样性并确保模型的泛化能力,本文采用了三种策略。首先,本文记录扩散过程每个时间戳的轨迹及对应的EPDM得分。然后,采用K均值聚类从人类驾驶数据中采集多种轨迹模式。最后,在NAVSIM数据集的每个场景的模拟过程中应用多个自车的位姿,生成多样化的样本

 奖励世界模型:本文提出了一个奖励世界模型,作为传统模拟器的轻量级、数据驱动的替代方案,它能够通过逆向强化学习,对自动驾驶系统进行闭环评估,并收集下游驾驶统计数据,例如碰撞率、交通规则合规性和驾驶舒适度

 奖励世界模型优化:训练奖励世界模型的目标是最小化预测指标得分与真实指标得分之间的差距。损失函数的计算如下:

$L_{Repdms} = \sum_{i, m} w_m ||\hat{r}_m^i - r_m^i||$

带有奖励世界模型的强化学习

本文在奖励世界模型中采用了PPO策略,整个策略优化过程包括从VLA策略中迭代采样轨迹,并更新策略参数以最大化预期累计奖励。整个过程如图3所示。

图3在RWM中使用PPO进行策略优化

本文的扩散策略从高斯噪声开始,逐步去噪,从而产生一系列的动作。基于这一规则,本文生成一组轨迹,并记录他们的完整扩散过程。对于单个轨迹而言,扩散过程定义如下:

$T_{traj} = (T_{traj\tau}, T_{traj\tau - 1}, ..., T_{traj\tau0})$

RWM使用多标准评分系统评估每条轨迹,将舒适度指标与安全性指标相结合。这些指标被汇总为基于EPDMS的得分$r_{epdms}$。在后续的扩散过程中,每个条件转换都有高斯策略进行建模

$\pi_\theta\left(x_{t-1}\mid x_t,c\right)=\mathcal{N}\left(x_{t-1};,\mu_\theta(x_t,c,t),\sigma_t^2I\right) $

因此,该扩散策略下整个轨迹的联合对数似然可以表示为

$\log\pi_\theta\left(\mathbf{x}_{0:T}\right)=\sum_{t=1}^\tau\log\pi_\theta\left(x_{t-1}\mid x_t,c\right)$

对于策略优化,本文采用基于PPO算法的强化学习。强化学习损失公式如下

$L=L_{\mathrm{RL}}+w_{IL}L_{\mathrm{IL}}$

IRL-VLA模型采用V2-99主干网络,并且处理分辨率大小为256×704的多视角图像。在模仿学习阶段,采用AdamW优化器训练100个epoch。奖励世界模型采用逆强化学习进行训练,并且使用交叉熵损失函数对EPDMS中的指标进行训练。对于强化学习阶段,本文采用了PPO优化策略。

4不同算法模型在Navhard测试基准上的实验结果

4展示了IRL-VLA与Navhard基准上的其他算法模型的性能比较结果。通过实验结果可以看出预训练模型在多个指标上均取得了具有竞争力的结果,进一步表明了本文提出的VLA架构在不依赖明确评分机制的情况下,能够同时优化安全性和舒适性。

此外,本文还进行了两项消融实验研究,用于评估所提出的技术和实施细节如何影响 IRL-VLA的表现性能。图5展示了本文提出的IRL-VLA分层推理扩散VLA代理的消融研究。

图5|分层推理扩散VLA代理的消融实验结果

通过实验结果可以看出,当仅使用3D推理的人类驾驶演示数据进行训练时,模型实现了70.0的EPDMS。将语义推理与高级驾驶命令查询相结合后,EPDMS提高了1.4。引入扩散规划器进行连续轨迹预测,EPDMS达到了74.4。实验结果证明了分层推理扩散VLA方案在实现更安全、更舒适的驾驶行为方面具有强大的性能。

本文提出了一种基于奖励世界模型的闭环强化学习框架IRL-VLA,适用于端到端自动驾驶中的视觉-语言-动作模型。目前,IRL-VLA是首个结合传感器输入且不依赖模拟器的闭环VLA方法,并且在NAVSIM v2基准测试中取得了SOTA的表现性能。

BMW汽车自动驾驶类专利技术资料80个合集(英文): ‘10机动车辆的警告系统.pdf 11用于建立车辆轨迹的方法和装置.pdf 12自动停车过程包括额外的校正移动.pdf 13用于使待支撑的车辆转向停车位的方法.pdf 14用于切换车辆模式的装置.pdf 15用于避免机动车辆与障碍物之间发生碰撞的方法.pdf 16用于向车辆中的消费者供应电能的能量存储系统.pdf 17红外监测系统具有灰度值的可变分配.pdf 18用于主动识别道路使用者的动作的方法和系统.pdf 19使用阈值方法检测流量状态.pdf 1用于控制自主可控组件的 电子控制装置.pdf 20部署和管理框架.pdf 21具有用于影响驾驶员的注意力和用于确定驾驶员的观察方向的装置的车辆.pdf 22签名过程.pdf 23用于以自动方式建立和断开用于插入式车辆的充电连接的装置.pdf 24用于车辆的显示装置,用于指示车辆中即将进行的自动执行的转向干预.pdf 25车辆转向系统.pdf 26提供驾驶操作数据的方法.pdf 27雾检测方法.pdf 28用于使车辆自动减速以避免碰撞或减少碰撞后果的方法.pdf 29用于操作车辆中的导航系统的方法以及相应的控制系统和计算机程序产品.pdf 2用于自主车辆和道路使用者之间的通信的方法和控制单元设置用于车辆.pdf 30用于基于单目视频数据估计车辆运动的系统和方法.pdf 31车辆数据总线系统中的故障跟踪.pdf 32使用无线传感器网络监视大型电池组的系统和装置.pdf 33用于机动车辆的自动纵向引导的过程.pdf 34具有至少一个加热导体和至少一个天线的车辆窗格.pdf 35具有用于影响驾驶员的观察方向的装置的机动车辆.pdf 37为电动汽车充电和车辆内部空调.pdf 38紧急制动助手,用于自动减速车辆以防止碰撞或减少碰撞后果.pdf 39用于操作机动车辆,导航系统和机动车辆的导航系统的方法.pdf 3机动车方向盘,在方向盘轮圈中具有显示单元.pdf 40用于确定驾驶情况的方法和系统.pdf 42用于控制机动车辆的车辆功能的无线电遥控系统.pdf 43用于警告和信息系统的对话系统.pdf 44接收数据的方法和装置.pdf 45双轨车辆的电动轴.pdf 46车辆摄像系统.pdf 47汽车巡航控制系统.pdf 48机动车辆中的驾驶员辅助系统.pdf 49通过控制器冗余实现故障安全操作,用于转向公路车辆的后轮.pdf 4用于机动车辆的电路装置.pdf 50根据车辆乘员的请求操作车辆的方法.pdf 51用户设备和系统.pdf 52操作员控制装置.pdf 53电力驱动系统.pdf 54用于操作机动车辆的对话系统的过程.pdf 55用于内燃机的热管理系统.pdf 55用于内燃机的热管理系统.pdf (1).bdc-downloading 56用于安装混合驱动器的传动系部件的方法.pdf 57用于监控机动车辆环境的系统.pdf 58用于在显示设备的显示器上表示车辆周围的物体的方法.pdf 59机动车自由空间监控系统.pdf 59机动车自由空间监控系统.pdf (1).bdc-downloading 5车辆周围的车辆与道路使用者之间的通信.pdf 60用于故障诊断的方法和装置.pdf 61使用车辆航向和道路航向确定车道变换的方法和装置.pdf 62用于警告机动车辆的车辆驾驶员的警告装置和方法.pdf 63用于停车辅助系统的遥控器和可通过遥控器控制的停车辅助系统.pdf 64用于机动车辆中的玻璃板的清洗装置.pdf 65用于控制机动车辆的车载供电系统中的控制设备的装置和方法.pdf 66用于改善机动车辆中的能见度条件的装置.pdf 67用于混合动力系统的输出扭矩整形和电机扭矩确定的控制架构.pdf 68用于监视通信系统的通信控制器的通信媒体访问调度的方法.pdf 69使用多数表决的方法和比特流解码单元.pdf 6车辆周围的车辆与道路使用者之间的通信.pdf 70用于在动力系统的分布式控制模块系统中确保输出扭矩的方法和装置.pdf 71自动驾驶车辆系统和方法.pdf 72用于开发用于协调换档执行和发动机扭矩控制的控制架构的方法和装置.pdf 73用于开发用于协调换档执行和发动机扭矩控制的控制架构的方法和装置.pdf 74用于约束混合动力系统中的输出扭矩的方法和装置.pdf 75用于确定用于控制动力系统的动力约束的方法.pdf 76用于控制混合动力系统中的动力致动器的方法.pdf 77用于控制动力系统内的电压的方法.pdf 78用于控制混合动力系中的电动助力的方法.pdf 79用于在混合动力系统中调整发动机操作以用于主动传动系阻尼的方法和装置.pdf 7车间系统具有由车辆的数据链路联网的多个诊断和或编程设备.pdf 80用于管理动力系统内的电力的方法.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值