北大最新ReconDreamer-RL:基于扩散场景重建的强化学习框架,碰撞率降低5倍!

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

研究背景与核心挑战

端到端自动驾驶模型的闭环仿真强化学习训练正受到广泛关注。相比仅依赖专家演示的模仿学习,闭环强化学习能让模型与环境互动,提升在多样场景中的鲁棒性和适应性。但现有方法面临两大核心挑战:

  • 仿真环境真实性不足:游戏引擎仿真器缺乏传感器级真实感,而现实世界闭环训练成本高、风险大;基于场景重建的方法虽能构建逼真数字孪生,但受限于训练数据分布,仅能在记录的相机轨迹范围内生成高质量传感器数据,难以处理突发刹车等极端场景。

  • 训练数据分布不均:现有数据多偏向简单直线运动,缺乏复杂轨迹和极端场景样本,导致模型泛化能力受限。

本文内容均出自『自动驾驶之心知识星球』,更多自动驾驶行业、技术和求职信息,欢迎扫码加入~

核心框架:ReconDreamer-RL的三层设计

该框架通过整合视频扩散先验与场景重建,构建了包含三个核心组件的强化学习增强方案,分两阶段优化自动驾驶策略:模仿学习阶段通过行为克隆初始化规划,强化学习阶段通过闭环试错优化策略。

1. ReconSimulator:高逼真度仿真环境

作为强化学习的交互基础,其核心是结合外观建模与物理建模,缩小sim2real差距:

  • 外观建模:先通过3D高斯 splatting(3DGS)重建驾驶场景并渲染新轨迹,再用DriveRestorer修正渲染视频中的伪影,迭代优化重建模型以支持多视角高质量渲染(流程见figure 2)。其中,DriveRestorer基于视频扩散模型微调,扩散损失公式为:

式中, 为时间步 的随机噪声, 为去噪网络, 为带噪 latent 变量, 包含退化视频 、3D边界框和高清地图等控制条件。

  • 物理建模:采用运动学自行车模型确保车辆轨迹的物理可行性。车辆在世界坐标系中的位姿 为旋转矩阵, 为位置)通过线速度 和转向角 更新,位置和方向更新公式分别为:

其中 导出的前进方向向量, 为轴距), 为绕z轴的旋转矩阵。

2. Dynamic Adversary Agent(DAA):极端场景生成器

为解决训练中极端场景缺失问题,DAA通过控制周围车辆轨迹自动生成切入、急刹等复杂交互场景(如figure 3、figure 4):

  • 从BEV中根据与自车的距离筛选目标车辆,基于自车轨迹 和预设交互行为 ,通过函数 (如text-to-trajectory方法)生成新轨迹

  • 生成的轨迹需通过可行性检查:确保在可行驶区域内、与其他车辆保持最小距离( ),且符合运动学模型约束。

  • 同时用于模仿学习和强化学习阶段:前者生成离线避撞轨迹数据,后者动态调整目标车辆速度等参数增加训练难度。

3. Cousin Trajectory Generator(CTG):轨迹多样性增强器

针对训练数据偏向直线运动的问题,CTG通过轨迹扩展和插值生成多样化轨迹,构建Cousin-nuScenes数据集(如figure 5、figure 6):

  • 轨迹扩展:生成车道变更、急转等新轨迹,检查其物理可行性和避撞性。

  • 轨迹插值:对专家轨迹 在时间步 间线性插值,插值点 为:

其中 为插值点数),同时调整周围车辆位置以保持真实交互关系。

实验验证:性能与优势

实验在基于nuScenes和Waymo数据集重建的3DGS环境中展开,对比了VAD、GenAD、RAD等基线方法,验证了该框架的有效性。

1. 整体性能提升

table 1显示,相比模仿学习方法(如VAD的碰撞率0.386)和强化学习方法RAD(0.238),该框架的碰撞率降至0.077,降低约5倍;位置和方向偏差总和(DR)也从RAD的0.084降至0.040,轨迹贴合度显著提升。

2. 极端场景表现

在切入场景中(table 4),模仿学习方法动态碰撞率极高(如VAD为0.293),RAD虽有改进(0.210),但该框架将其降至0.053,碰撞率较模仿学习提升404.5%。定性结果(figure 7)显示,面对右侧车辆快速切入及切入后急刹场景,该框架能成功避撞,而RAD因反应不足或操控不当导致碰撞。

3. 组件有效性

消融实验(table 2)表明:

  • 移除ReconSimulator后,碰撞率从0.077升至0.238,验证了逼真仿真环境的必要性;

  • DAA将碰撞率从0.172降至0.117,证明极端场景生成的价值;

  • CTG通过优化数据分布,将偏差率从0.073降至0.053。

4. 渲染效率

table 5显示,ReconSimulator的渲染速度达125 FPS,远超EmerNeRF的0.21 FPS,满足强化学习实时交互需求。

参考

[1]ReconDreamer-RL: Enhancing Reinforcement Learning via Diffusion-based Scene Reconstruction

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程


端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

MATLAB主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性内容概要:本文主要介绍了一种在MATLAB环境下实现的主动噪声和振动控制算法,该算法针对较大的次级路径变化具有较强的鲁棒性。文中详细阐述了算法的设计原理与实现方法,重点解决了传统控制系统中因次级路径动态变化导致性能下降的问题。通过引入自适应机制和鲁棒控制策略,提升了系统在复杂环境下的稳定性和控制精度,适用于需要高精度噪声与振动抑制的实际工程场景。此外,文档还列举了多个MATLAB仿真实例及相关科研技术服务内容,涵盖信号处理、智能优化、机器学习等多个交叉领域。; 适合人群:具备一定MATLAB编程基础和控制系统理论知识的科研人员及工程技术人员,尤其适合从事噪声与振动控制、信号处理、自动化等相关领域的研究生和工程师。; 使用场景及目标:①应用于汽车、航空航天、精密仪器等对噪声和振动敏感的工业领域;②用于提升现有主动控制系统对参数变化的适应能力;③为相关科研项目提供算法验证与仿真平台支持; 阅读建议:建议读者结合提供的MATLAB代码进行仿真实验,深入理解算法在不同次级路径条件下的响应特性,并可通过调整控制参数进一步探究其鲁棒性边界。同时可参考文档中列出的相关技术案例拓展应用场景
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值