作者 | 么么牛 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/1967219779958973481
点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
本文只做学术分享,如有侵权,联系删文
https://arxiv.org/pdf/2502.13144
https://github.com/hustvl/RAD
Q1: 这篇论文试图解决什么问题?
这篇论文试图解决端到端自动驾驶(End-to-End Autonomous Driving, AD)算法在现实世界部署中面临的挑战,主要集中在以下两个方面:
1. 因果混淆(Causal Confusion):
现有的基于模仿学习(Imitation Learning, IL)的端到端自动驾驶算法主要通过学习人类驾驶行为的示范数据来训练网络。然而,这种范式主要捕捉的是观察(状态)和动作之间的相关性,而不是因果关系。因此,IL训练的策略可能难以识别规划决策背后的真正因果因素,导致所谓的“捷径学习”(shortcut learning),例如仅从历史轨迹外推未来轨迹。
此外,IL训练数据主要包含常见驾驶行为,未能充分覆盖长尾分布,导致IL训练的策略在面对安全关键事件(如碰撞)时缺乏足够的敏感性,容易收敛到平凡解。
2. 开环训练与闭环部署之间的差距(Open-loop Gap):
IL策略是通过使用分布良好的驾驶示范数据以开环方式训练的。然而,现实世界的驾驶是一个闭环过程,每一步的微小轨迹误差会随着时间累积,导致误差累积和分布外(out-of-distribution)场景。IL训练的策略在这些未见场景中往往表现不佳,引发了对其鲁棒性的担忧。
为了解决这些问题,论文提出了一种基于3D高斯溅射(3D Gaussian Splatting, 3DGS)技术的闭环强化学习(Reinforcement Learning, RL)训练范式。通过构建真实物理世界的逼真数字副本,使AD策略能够通过大规模的试错来广泛探索状态空间,并学习处理分布外的场景。同时,为了增强安全性,设计了专门的安全相关奖励,引导策略有效应对安全关键事件并理解现实世界的因果关系。此外,为了更好地与人类驾驶行为保持一致,将模仿学习作为强化学习训练中的正则化项。
Q2: 有哪些相关研究?
以下是与该论文相关的研究领域和具体工作:
1. 动态场景重建(Dynamic Scene Reconstruction)
UniSim [46]、MARS [44] 和 NeuRAD [40]:这些方法利用神经场景图进行结构化场景分解,以实现新颖视图合成和动态场景重建。然而,它们依赖于隐式表示,导致渲染速度较慢,限制了其在实时应用中的实用性。
3D Gaussian Splatting (3DGS) [18]:作为一种高效的替代方案,3DGS在保持高视觉保真度的同时,显著提高了渲染速度。StreetGaussians [45]、DrivingGaussians [51] 和 HUGSIM [50] 等工作展示了3DGS在建模城市环境中的有效性,这些方法通过显式分解场景为结构化组件来实现优越的渲染性能和可控性。
2. 端到端自动驾驶(End-to-End Autonomous Driving)
UniAD [12]:通过整合多个感知任务来增强规划性能,展示了端到端自动驾驶的潜力。
VAD [16]:探索使用紧凑的向量化场景表示来提高效率。
VADv2 [2]:将规划范式转向多模式规划,通过建模规划词汇的概率分布来实现。
Hydra-MDP [22]:通过引入基于规则的评分器来改进VADv2的评分机制。
SparseDrive [38]:探索了一种不依赖鸟瞰图(BEV-free)的解决方案。
DiffusionDrive [28]:提出了一个截断的扩散策略,通过去噪锚定的高斯分布来生成多模式驾驶动作分布。
3. 强化学习(Reinforcement Learning)
AlphaGo [36] 和 AlphaGo Zero [37]:在围棋游戏中展示了强化学习的强大能力。
OpenAI O1 [32] 和 Deepseek-R1 [4]:利用强化学习开发推理能力。
其他自动驾驶中的强化学习应用:一些研究将强化学习应用于自动驾驶,但这些研究要么基于非逼真的模拟器(如CARLA [6]),要么不涉及端到端驾驶算法,因为它们需要完美的感知结果作为输入。据作者所知,RAD是第一个在逼真的3DGS环境中使用强化学习训练端到端AD代理的工作。
Q3: 论文如何解决这个问题?
论文通过以下方式解决端到端自动驾驶(AD)算法在现实世界部署中面临的挑战:
1. 提出基于3DGS的闭环强化学习(RL)训练范式
3DGS技术:利用3D高斯溅射(3D Gaussian Splatting, 3DGS)技术构建真实物理世界的逼真数字副本。这种技术能够提供高度逼真的传感器数据,使AD策略能够在虚拟环境中进行大规模的试错学习,从而广泛探索状态空间并学习处理分布外的场景。
闭环训练环境:通过3DGS构建的数字副本支持与AD策略的交互,允许在虚拟环境中进行闭环强化学习训练。这解决了使用真实世界环境进行闭环训练的安全风险和成本问题,同时也克服了现有模拟器无法提供逼真传感器数据的限制。
2. 设计专门的安全相关奖励
奖励函数设计:为了确保AD策略能够有效应对安全关键事件并理解现实世界的因果关系,设计了专门的安全相关奖励函数。该奖励函数由以下四个部分组成:
动态碰撞奖励(Dynamic Collision Reward):检测与动态障碍物的碰撞。
静态碰撞奖励(Static Collision Reward):检测与静态障碍物的碰撞。
位置偏差奖励(Positional Deviation Reward):衡量与专家轨迹的位置偏差。
航向偏差奖励(Heading Deviation Reward):衡量与专家轨迹的航向偏差。
奖励函数的作用:这些奖励函数通过惩罚不安全行为和鼓励与专家轨迹对齐的行为,引导AD策略在训练过程中学习安全驾驶行为。
3. 结合强化学习(RL)和模仿学习(IL)
模仿学习作为正则化项:将模仿学习(IL)纳入强化学习(RL)训练中,作为正则化项。IL通过提供人类驾驶行为的示范数据,帮助RL训练的策略保持与人类驾驶行为的一致性,避免RL训练过程中可能出现的非人类行为。
协同优化:RL和IL协同优化AD策略。RL通过建模因果关系和缩小开环差距来增强IL,而IL通过确保策略行为与人类驾驶行为的一致性来补充RL。这种结合方式既利用了RL在处理复杂环境和学习安全行为方面的优势,又保留了IL在保持人类驾驶风格方面的优势。
4. 三阶段训练范式
感知预训练(Perception Pre-Training):使用地图和代理的真实标签来指导实例级标记的编码,训练BEV编码器、地图头和代理头。
规划预训练(Planning Pre-Training):使用大规模真实世界驾驶示范数据来初始化动作分布,训练图像编码器和规划头。
强化后训练(Reinforced Post-Training):在3DGS环境中进行RL和IL的协同训练,进一步优化AD策略。通过并行工作器进行大规模的rollout,收集数据并更新策略。
5. 优化动作空间和奖励传播
动作空间设计:将动作空间分解为横向动作和纵向动作,并限制在0.5秒的时间范围内,简化了动作模型,降低了动作空间的维度,加速了RL训练的收敛。
奖励传播:使用广义优势估计(Generalized Advantage Estimation, GAE)将奖励信号向前传播,优化前面步骤的动作分布,确保策略在累积误差的情况下仍能学习到有效的动作。
6. 引入辅助目标
辅助目标设计:为了应对RL中常见的稀疏奖励问题,引入了与碰撞、偏差相关的密集辅助目标。这些辅助目标通过提供更频繁的反馈,帮助策略更快地收敛,并在训练过程中保持稳定的性能。
辅助目标的作用:辅助目标通过调整动作分布,鼓励策略采取更安全的行为,如避免碰撞和减少与专家轨迹的偏差。这些目标与主目标(PPO目标)结合,形成了最终的优化目标。
通过上述方法,论文提出的RAD框架在3DGS构建的闭环评估基准上取得了优于现有IL方法的性能,特别是在碰撞率方面,RAD实现了3倍的降低。
Q4: 论文做了哪些实验?
论文中进行了以下实验来验证所提出方法的有效性:
1. 实验设置(Experimental Settings)
数据集和基准:
收集了2000小时的真实世界中人类专家驾驶演示数据。
通过低成本自动化注释流程获取地图和代理的真实标签,用于第一阶段的感知预训练。
使用自车的里程信息作为第二阶段规划预训练的监督。
从收集的驾驶演示中选取4305个高碰撞风险的密集交通剪辑片段,并将其重建为3DGS环境。其中,3968个3DGS环境用于RL训练,337个3DGS环境作为闭环评估基准。
评估指标:
使用九个关键指标来评估AD策略的性能:
动态碰撞比率(Dynamic Collision Ratio, DCR):与动态障碍物碰撞的频率。
静态碰撞比率(Static Collision Ratio, SCR):与静态障碍物碰撞的频率。
碰撞比率(Collision Ratio, CR):总碰撞频率,等于DCR和SCR之和。
位置偏差比率(Positional Deviation Ratio, PDR):自车与专家轨迹的位置偏差频率。
航向偏差比率(Heading Deviation Ratio, HDR):自车与专家轨迹的航向偏差频率。
偏差比率(Deviation Ratio, DR):总偏差频率,等于PDR和HDR之和。
平均偏差距离(Average Deviation Distance, ADD):在发生碰撞或偏差之前,自车与专家轨迹之间的平均最小距离。
纵向抖动(Longitudinal Jerk):衡量纵向加速度变化,评估驾驶平顺性。
横向抖动(Lateral Jerk):衡量横向加速度变化,评估驾驶平顺性。
2. 消融研究(Ablation Study)
RL-IL比例分析:
分析了不同强化学习(RL)与模仿学习(IL)步骤混合比例对性能的影响。实验结果表明,当RL与IL的比例为4:1时,碰撞比率(CR)最低,同时保持了较低的平均偏差距离(ADD),表明在安全性和轨迹一致性之间取得了最佳平衡。
奖励源分析:
研究了不同奖励组件对性能的影响。实验结果表明,包含所有奖励组件的完整奖励函数能够实现最低的碰撞比率(CR),同时保持稳定的平均偏差距离(ADD)。这证明了综合奖励函数在提升安全性和轨迹一致性方面的有效性。
辅助目标分析:
考察了辅助目标对性能的影响。实验结果表明,与完整辅助目标设置相比,省略任何辅助目标都会导致碰撞比率(CR)上升,这突显了辅助目标在提升安全性方面的集体作用。特别是,仅保留辅助目标而省略PPO目标的设置(ID 1)的碰撞比率高于完整设置(ID 8),表明辅助目标与PPO目标结合时效果最佳。
3. 与现有方法的比较(Comparisons with Existing Methods)
定量比较:
将RAD方法与现有的基于模仿学习的端到端自动驾驶方法(如VAD [17]、GenAD [49]和VADv2 [2])在提出的3DGS密集交通评估基准上进行了定量比较。RAD在大多数指标上均优于IL方法,特别是在碰撞比率(CR)方面,RAD实现了3倍的降低,这表明强化学习有助于AD策略学习通用的碰撞避免能力。
定性比较:
提供了IL-only策略(未经过强化后训练)与RAD之间的定性比较。IL-only方法在动态环境中表现不佳,经常无法避免与移动障碍物的碰撞或管理复杂的交通情况。相比之下,RAD能够持续良好地表现,有效避免动态障碍物并处理具有挑战性的任务。这些结果突显了混合方法中闭环训练的优势,使其能够更好地应对动态环境。
4. 更多定性结果(More Qualitative Results)
论文还提供了RAD和IL-only策略在各种驾驶场景下的更多定性比较,包括绕行、在密集交通中爬行、交通拥堵和U-turn操作等。这些结果进一步证明了RAD在生成更平滑轨迹、增强碰撞避免能力和提高复杂环境适应性方面的有效性。
Q5: 有什么可以进一步探索的点?
论文中提出的方法在端到端自动驾驶领域取得了显著进展,但仍有一些可以进一步探索和改进的方向:
1. 3DGS环境的交互性
当前限制:当前使用的3DGS环境是以非交互式的方式运行的,即其他交通参与者不会根据自车的行为做出反应,而是按照日志回放的方式行动。
改进方向:开发更高级的3DGS环境,使其他交通参与者能够实时响应自车的行为,从而更真实地模拟现实世界的交通交互。这可以通过引入基于规则的行为模型或使用强化学习训练其他交通代理来实现。
2. 3DGS技术的改进
当前限制:尽管3DGS在渲染速度和视觉保真度方面表现出色,但在渲染非刚体(如行人)、未观测视图和低光照场景方面仍有改进空间。
改进方向:
非刚体渲染:研究更先进的渲染技术,以更逼真地渲染行人和其他非刚体对象。
多视图一致性:改进3DGS技术,以更好地处理从不同视角观察时的一致性问题,特别是在遮挡和视角变化较大的情况下。
低光照场景:开发专门的光照模型和渲染技术,以提高在低光照条件下的视觉保真度。
3. 强化学习的扩展
当前限制:虽然强化学习在训练过程中表现出色,但其训练效率和样本复杂度仍有提升空间。
改进方向:
多智能体强化学习:引入多智能体强化学习(MARL),使多个自车代理在共享环境中学习,从而提高策略的泛化能力和鲁棒性。
元强化学习:探索元强化学习(Meta-RL),使AD策略能够快速适应新任务和新环境,减少对大量训练数据的依赖。
稀疏奖励问题:进一步研究稀疏奖励问题,开发更有效的奖励信号设计和探索策略,以加速强化学习的收敛。
4. 与人类驾驶行为的一致性
当前限制:尽管模仿学习在保持与人类驾驶行为的一致性方面发挥了作用,但在复杂和动态的交通环境中,AD策略的行为可能仍与人类驾驶存在差异。
改进方向:
行为克隆与逆强化学习:结合行为克隆(Behavioral Cloning, BC)和逆强化学习(Inverse Reinforcement Learning, IRL),更准确地学习人类驾驶的奖励函数和行为模式。
人类反馈学习:引入人类反馈学习(Learning from Human Feedback, LfH),使人类专家能够直接对AD策略的行为进行评估和调整,从而提高策略的可接受性和安全性。
5. 模型的可解释性和安全性
当前限制:深度学习模型通常被视为“黑盒”,其决策过程难以解释,这在安全关键的应用中是一个重大问题。
改进方向:
可解释性技术:应用和开发可解释性技术,如特征重要性分析、注意力机制可视化和因果推断,以更好地理解AD策略的决策过程。
安全验证:开发形式化验证方法和安全验证框架,以确保AD策略在各种复杂场景下的安全性。
6. 大规模数据集和真实世界测试
当前限制:尽管论文中使用了大规模的驾驶演示数据,但这些数据主要来自特定的环境和场景,可能无法覆盖所有可能的驾驶情况。
改进方向:
多样化数据集:收集和构建更多样化、更全面的驾驶数据集,包括不同地理位置、不同天气条件和不同交通密度的数据。
真实世界测试:在真实世界环境中进行更多的测试,以验证AD策略在实际驾驶条件下的性能和安全性。这可以通过逐步的实地测试和与人类驾驶员的对比测试来实现。
7. 计算效率和实时性
当前限制:尽管3DGS技术提高了渲染速度,但在实际应用中,AD策略需要在实时环境中做出快速决策,这对计算效率提出了更高要求。
改进方向:
模型压缩和优化:应用模型压缩技术,如量化、剪枝和知识蒸馏,以提高AD策略的计算效率。
硬件加速:利用专用硬件(如GPU、FPGA和ASIC)加速AD策略的推理过程,确保实时性。
通过在这些方向上的进一步研究和改进,可以进一步提升端到端自动驾驶系统的性能、安全性和可靠性,推动其在实际应用中的广泛部署。
Q6: 总结一下论文的主要内容
论文《RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning》提出了一种基于3D高斯溅射(3D Gaussian Splatting, 3DGS)技术的端到端自动驾驶(AD)策略训练方法。通过结合强化学习(RL)和模仿学习(IL),该方法旨在解决现有IL方法在现实世界部署中面临的因果混淆和开环差距问题。以下是论文的主要内容:
背景知识
端到端自动驾驶(AD)算法通过直接将传感器输入映射到驾驶动作,提供系统简单性和泛化能力的优势。大多数现有方法基于模仿学习(IL),训练神经网络模仿人类驾驶行为,但存在因果混淆和开环差距问题。
因果混淆:IL主要捕捉状态和动作之间的相关性而非因果关系,导致策略在面对安全关键事件时缺乏敏感性。
开环差距:IL策略在开环方式下训练,而真实驾驶是闭环过程,导致IL策略在未见场景中表现不佳。
研究方法
3DGS技术:利用3DGS技术构建真实物理世界的逼真数字副本,使AD策略能够在虚拟环境中进行大规模试错学习,探索状态空间并处理分布外场景。
奖励设计:设计专门的安全相关奖励,引导策略有效应对安全关键事件并理解现实世界的因果关系。
结合RL和IL:将IL纳入RL训练作为正则化项,使策略保持与人类驾驶行为的一致性,同时利用RL建模因果关系和缩小开环差距。
三阶段训练范式:
感知预训练:使用地图和代理的真实标签训练BEV编码器、地图头和代理头。
规划预训练:使用大规模驾驶示范数据初始化动作分布,训练图像编码器和规划头。
强化后训练:在3DGS环境中进行RL和IL的协同训练,优化AD策略。
实验
数据集和基准:收集2000小时的驾驶演示数据,从中选取4305个高碰撞风险的密集交通剪辑片段,重建为3DGS环境用于训练和评估。
评估指标:使用动态碰撞比率(DCR)、静态碰撞比率(SCR)、位置偏差比率(PDR)、航向偏差比率(HDR)等九个关键指标评估性能。
消融研究:
RL-IL比例分析:发现4:1的RL-IL比例在安全性和轨迹一致性之间取得了最佳平衡。
奖励源分析:完整的奖励函数在降低碰撞比率(CR)和保持轨迹一致性方面表现最佳。
辅助目标分析:辅助目标有助于降低碰撞比率,与PPO目标结合时效果最佳。
与现有方法比较:RAD在大多数指标上优于现有的IL方法,特别是在碰撞比率(CR)方面,实现了3倍的降低。
定性比较:RAD在各种驾驶场景下表现出色,有效避免碰撞并处理复杂交通情况。
关键结论
RAD通过结合RL和IL,利用3DGS技术构建的逼真数字副本进行训练,有效解决了现有IL方法在安全性和轨迹一致性方面的不足。
在3DGS环境中的闭环评估中,RAD在碰撞比率(CR)等关键指标上显著优于现有IL方法,证明了其在处理复杂动态环境中的优势。
论文还指出,当前3DGS环境的交互性和渲染技术仍有改进空间,未来工作将致力于解决这些问题并进一步提升AD策略的性能和安全性。
自动驾驶之心
论文辅导来啦

自驾交流群来啦!
自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com
4482

被折叠的 条评论
为什么被折叠?



