世界模型再进化!博士AdaWM:自适应世界模型规划新SOTA~

编辑 | 自动驾驶专栏

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心世界模型技术交流群

本文只做学术分享,如有侵权,联系删文

5faf821f0c1faf4b3d192a3aeb247256.png

  • 论文链接:https://arxiv.org/pdf/2501.13072

ee50c63624211f384158ae31d13ccda5.jpeg

摘要

b39cac3b9fbd6869e2f538d4af78295b.png

本文介绍了AdaWM:基于自适应世界模型的自动驾驶规划。基于世界模型的强化学习(RL)已经成为一种有前景的自动驾驶方法,它学习潜在动态模型并且用其训练规划策略。为了加快学习过程,通常使用预训练-微调范式,其中在线RL由预训练模型和离线学习的策略来初始化。然而,在RL中朴素地执行这类初始化可能会导致新任务中的在线交互期间性能急剧下降。为了应对这一挑战,本文首先分析了性能下降问题,并且确定了两个主要根本原因:规划策略的不匹配和动态模型的不匹配(由分布偏移导致)。本文进一步分析了这些因素对微调过程中性能下降的影响,研究结果表明,微调策略的选择在缓解这些影响方面发挥着关键作用。然后,本文引入了AdaWM,这是一种基于自适应世界模型的规划方法,其具有两个关键步骤:(a)不匹配识别,它量化了不匹配并且告知微调策略;(b)对齐驱动的微调,它使用高效的低秩更新选择性地更新策略或者模型。本文在具有挑战性的CARLA驾驶任务上进行实验,结果表明,AdaWM显著地改进了微调过程,使自动驾驶系统的性能更为鲁棒和高效。

78d029bea88a06ae45e0f756e4db86c5.jpeg

主要贡献

a6573532a1bdcb4738e33073cd687020.png

本文的主要贡献总结如下:

1)本文量化了微调过程中观测到的性能差距,并且确定了两个主要根本原因:(1)动态模型不匹配;(2)策略不匹配。然后,评估每种原因对微调性能的相应影响;

2)本文引入了AdaWM,这是一种基于自适应世界模型的自动驾驶规划方法,它通过两个关键步骤实现了有效的微调:(1)不匹配识别;(2)对齐驱动的微调。此外,AdaWM分别为动态模型和策略引入了高效的更新方法;

3)本文在具有挑战性的CARLA环境中的多个任务上验证了AdaWM,展现了它在路径成功率(SR)和碰撞时间(TTC)方面实现卓越性能的能力。实验结果表明,AdaWM有效地缓解了各种新任务的性能下降问题,证实了识别和解决微调过程中不匹配的重要性。

3a73a487cce1389963826da51cb48ac2.jpeg

论文图片和表格

f2da6f93ccf3aa7f34a74c35509b2470.png

d5159ea6859b1807ce7ede9eb18fc938.png

7ec7a78483ca2afe0f38af922914b3fe.png

d33201803ffa9524843568b15ec642e5.png

7ec8f74e4962606e2ab0ed4d5a9e1938.png

35f0897b498808a45003b0480ce7463b.png

d25a1f16a81e257ec6d58b057349c8fa.png

29bb47ac904f0377172fab2f3ac0afb4.png

8e2bf3a2f3a4adc60fb1bcad39f12434.png

a1e586fbea61007c2b8a7545fd9085eb.png

d4717c1c6e8c402bc23a79740bd06f82.png

c73585faa38987bd37275e5804a3f746.jpeg

总结

40fb47b4eb95a8fb9df7da3007b860b9.png

本项工作提出了AdaWM,这是一种基于自适应世界模型的规划方法,它缓解了自动驾驶中基于世界模型的强化学习(RL)的性能下降问题。根据理论分析,本文确定了导致性能下降的两个主要原因:动态模型不匹配和策略不匹配。本文提出了具有两个核心组件的AdaWM:不匹配识别和对齐驱动的微调。AdaWM评估了性能下降的主要来源,并且根据识别的不匹配对动态模型或者策略应用选择性低秩更新。在CARLA上的大量实验表明,AdaWM显著地提高了路径成功率和碰撞时间,验证了其有效性。本项工作强调了在解决具有挑战性的现实世界任务时选择高效且鲁棒的微调策略的重要性。未来研究存在若干条有前景的途径。首先,探索将AdaWM应用于自动驾驶以外的其它领域能够扩大其适用性。此外,将AdaWM扩展到考虑智能体之间交互的多智能体环境中,可以进一步提高其在复杂现实世界环境中的鲁棒性。

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。

8d1dbc2e639209fed163f5e55fc98248.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

6054b1d0c41c9cc05c6cc068153ea017.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

076cca04bb28888433e252651f348fe5.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

60f585fc34b106a7c4c7e63723499aa7.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值