点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
论文作者 | Haochen Tian等
编辑 | 自动驾驶之心
李弘扬老师团队的新工作 - SimScale,中科院、港大OpenDriveLab和小米汽车联合完成。近年来,大模型领域背靠 Data Scaling 取得了前所未有的突破,但到了自动驾驶,这套方法却突然失灵了。不是因为模型不够大,而是现实世界根本给不了足够多的关键场景。
现实道路中的绝大多数驾驶片段都是重复而安全的“常态行为”,真正决定策略能力上限的高风险、长尾、极端场景却往往难以遇见,更难以大规模收集。因此即使训练数据越来越多,模型的真实表现却没有得到相应的增加。因此,自动驾驶不是缺数据,而是缺“对的”数据,行业亟需一种能系统性生成大量关键场景、并规模化训练的新路径。
针对这个问题SimScale应运而生,SimScale探索了在scalable的3DGS交互式仿真下,通过真实世界仿真生成关键场景,以及真实仿真协同训练策略,首次揭示了自动驾驶仿真数据的规模效应:无需更多真实数据,只靠扩大仿真数量,就能持续突破任何端到端驾驶模型的性能上限!
该框架利用先进的神经渲染技术和交互式环境,生成由扰动后的自车轨迹控制的高真多视角观测数据。此外本文还为这些新仿真状态开发了伪专家轨迹生成机制,以提供动作监督。基于合成数据的实验表明,在真实世界数据和仿真数据上采用简单的协同训练策略,能显著提升多种规划方法在挑战性真实世界基准测试中的鲁棒性和泛化能力——在navhard数据集上EPDMS指标最高提升6.8,在navtest数据集上最高提升2.9。更重要的是,即使没有额外的真实世界数据输入,仅通过增加仿真数据量,就能实现策略性能的平稳提升。
论文标题:SIMSCALE: Learning to Drive via Real-World Simulation at Scale
论文链接:https://arxiv.org/abs/2511.23369
项目主页:https://opendrivelab.com/SimScale
代码、仿真数据、模型权重即将全面开源!
总结来说,SimScale有以下特点:
🏗️一个能“无限扩张世界”的仿真生成框架:通过高保真神经渲染,自动制造多样化反应式交通场景与伪专家示范。
🚀一套让仿真与真实“相互增益”的训练策略,使各种端到端模型都能越训越强,鲁棒性与泛化性全面提升。
🔬一份首次系统揭示自动驾驶仿真规模效益的“实践手册”,通过实验深度分析把仿真推向规模化的关键因素。
一、背景回顾
Data Scaling被视为现代深度学习在多个领域(包括语言、视觉和多模态建模)的基本原理,随着数据量增加,它为性能的稳步提升提供了支撑。在自动驾驶领域,端到端规划通过学习将原始观测数据映射为动作,为利用大规模驾驶数据实现完全自动驾驶系统提供了一种极具潜力的途径。
然而,来自人类专家演示的真实世界驾驶数据中,常见场景占主导地位,而诸如安全关键场景等复杂情况则代表性不足。此外,基于这类数据训练的规划器会受限于人类驾驶的分布范围,难以泛化到罕见或未见过的场景,导致部署时出现分布偏移和因果混淆问题。因此,仅依靠扩展真实世界数据,对于实现可部署的自动驾驶而言效率低下。
基于神经渲染的仿真技术能够生成高保真的驾驶场景,因此有望大规模产生偏离人类演示的分布外状态,这对于闭环规划至关重要。因此,扩展仿真数据成为替代单纯依赖真实世界数据的一种有吸引力的方案。但规划器需要相应的可行演示来学习如何处理分布外状态,而现有仿真方法无法有效生成这类演示。此外,关于仿真数据扩展带来的影响,目前尚缺乏深入分析。本研究旨在为端到端规划中,基于有限真实世界场景扩展仿真数据提供一套系统化方案。
为开展全面的实验和分析,本研究围绕三个核心问题展开:
(1)有效的仿真数据应具备哪些特征;
(2)规划器能从仿真数据中获得多大收益;
(3)在固定真实世界数据集的情况下,该系统是否能实现可预测的规模扩展。
为此,本文设计了一套可扩展的仿真数据生成框架,能够将现有真实世界训练数据中的专家分布进行扩展,从而为端到端自动驾驶系统提供支撑。本文开发了基于3DGS的仿真数据引擎,该引擎支持控制时间维度上的自车和其他智能体状态,并从自车视角渲染多视角视频。
具体而言,本文首先对自车轨迹进行多样化且合理的扰动采样,以最大化状态空间的覆盖范围(例如车道偏离中心、近距离交互等场景)。随后,本文将每个扰动轨迹的最终状态作为扰动状态,并通过两种不同形式的伪专家生成相应的演示轨迹进行对比。第一种是基于恢复的专家,它会检索能将策略引导回人类轨迹分布的轨迹,从而产生类人且谨慎的行为;第二种是基于特权规划器的专家,它会生成最优轨迹,代表一种探索性策略,但真实感相对较低。为提升可扩展性和合理性,整个流程在交互式环境中执行,其中周围智能体会对自车做出响应式交互。
为全面评估仿真数据的效果,本文考虑了三种不同模型规模的端到端规划器,即回归类方法的LTF、扩散模型类规划器的DiffusionDrive,以及词汇评分类的GTRSDense。本文采用一种简单有效的虚实协同训练策略,在保留人类驾驶分布的同时,减轻视觉领域退化问题。此外,通过固定真实数据量,并通过非重叠样本逐步增加仿真数据,本文研究了不同规划器从仿真数据中获益的情况以及整体的规模扩展特性。
本文采用两个真实世界闭环基准测试,从多个角度对规划器进行评估:navhard专注于未见过的挑战性场景,用于评估分布外状态对规划器的影响;而navtest则包含大量多样化场景,用于测试规划器处理不同情况的能力。
如图1所示,这套完整的虚实结合学习系统(包括可扩展的仿真数据构建流程和有效的虚实协同训练策略),名为SimScale。严谨的实验揭示了SimScale带来的若干关键发现,包括但不限于:
结合伪专家的可扩展仿真,能够释放现有真实世界驾驶数据的内在潜力;
虚实协同训练能协同提升不同端到端规划器的鲁棒性和泛化能力;
探索性专家和交互式环境能提升仿真数据的有效性;
具备多模态建模能力的规划器,展现出更令人满意的数据规模扩展特性。
二、相关方法
本文将SimScale的核心框架概述如下:第一部分简要介绍支持可控多视角视频渲染的3D高斯Splatting(3DGS)仿真数据引擎;然后提出伪专家场景仿真流水线,生成包含分布外(OOD)状态及可行演示样本的多样化仿真数据;最终展示适用于不同端到端规划器的可扩展虚实协同训练方法。
预备知识
端到端规划模型以历史时序帧内的观测数据为输入,输出预测的未来轨迹。每个训练场景从选定时间步开始,包含长度为T的历史时间域和长度为H的规划时间域。模型处理过去T帧数据以预测未来H帧轨迹,最终形成一个覆盖 个时间步的完整训练样本。
3DGS仿真数据引擎
为减小真实世界数据与仿真场景中新视角生成观测数据之间的域差异,需要一个照片级真实感的数据引擎。基于从真实世界数据集重建的3DGS资产,本文的数据引擎 以时间步t的相机内参 、外参 ,以及同一时间步非自车的位置和偏航角 为输入,渲染出对应的RGB观测图像。相机外参 可通过自车位置和航向 结合自车到相机的变换关系直接获取,其他相机参数则直接沿用原始数据集的配置。
预处理:参考相关工作,本文以时间步t的投影激光雷达点为指导,对多视角相机同时捕获的图像进行曝光对齐。此外,借助NAVSIM标注提供的3D边界框,将带颜色的激光雷达点划分为静态背景和多个车辆等不同组,进一步将其作为高斯初始化的输入,以提升重建性能。
分块重建:场景重建过程中,图像数量的增加会显著提升计算成本和运行时间。因此,本文采用分块重建的方式,每个块对应一个时空范围。参考现有工作,利用每一时间步的3D边界框位置和姿态,将背景和前景分别重建为独立模型,得到静态背景资产和多个可移动车辆资产。这些资产可根据输入指定的位置和航向进行放置,从而渲染出新视角下的传感器数据。为保证生成仿真数据的质量,本文会剔除新颖视角合成中平均峰值信噪比(PSNR)较低的块。
伪专家场景仿真
基于上述数据引擎,本文设计了伪专家场景仿真流水线,从现有真实世界数据中生成多样化的仿真数据,流程如算法1所示。该流水线旨在通过扰动状态与专家轨迹配对,生成可行的演示样本,具体如图2所示。
反应式场景重建:对于每个训练片段d,本文执行两次时长为H的仿真:一次用于在t=T时探索扰动状态,另一次用于在t=T+H时生成专家轨迹。
在每次仿真中,自车轨迹 通过线性二次调节器(LQR)进行仿真,而其他智能体则采用智能驾驶员模型(IDM)建模,以实现与自车的交互,进而生成对应的未来状态 。为得到有效的专家轨迹,本文将模拟的自车-智能体轨迹分为两个阶段 ,再通过数据引擎Φ将其渲染为多视角视频 。这种将行为仿真与传感器渲染解耦的设计,实现了其他智能体对自车行为做出合理响应的反应式环境,从而提升了仿真数据的真实性和多样性。
轨迹扰动:在第一次仿真步骤(t=T)中,本文对自车轨迹 进行扰动,使自车在t=T+H时达到新的终端状态,该状态随后将作为下一次滚动的起始状态(图2(a))。本文的目标是采样多样化且合理的状态:为保证多样性,扰动从密集覆盖动作空间的聚类人类轨迹词汇库中选取;为保证合理性,本文通过对纵向/横向偏移 和航向变化 设置阈值,并剔除物理上无效的轨迹(如碰撞、偏离道路、渲染不稳定等),将扰动限制在人类行为附近。
此外,本文采用步长为 的交错网格对轨迹端点进行空间稀疏采样,以促进状态空间的均匀覆盖。由于反应式仿真成本较高,本文先通过非反应式方式筛选不可行轨迹,仅对稀疏后的轨迹集进行反应式验证,最终得到一组动态和物理上均可行的扰动 。
伪专家轨迹生成:在第二次仿真(t=T+H)中,针对每个扰动状态,本文采用非人类专家(即伪专家 )生成对应的可行轨迹 。由于伪专家并非完美,且 将用于监督训练,因此在第二阶段仿真中本文采用了更严格的筛选条件。除物理约束外,还强制执行交通规则和车辆运动学限制。为探究哪种策略最适合作为端到端规划器的监督信号,本文对比了两种伪专家策略:保守型恢复式专家和探索型规划器式专家,具体如下:
(1)恢复式专家:在轨迹扰动后,将策略引导至人类行为分布范围内。为保证鲁棒性,本文的恢复式专家 从大型词汇库 中检索与自车在t=T+2H时记录状态最匹配的人类轨迹(图2(b1))。对于每个长度为H的候选轨迹,本文用一个紧凑的匹配向量总结其初始和最终姿态:
给定带有目标向量 的自车扰动状态,恢复式专家通过以下方式检索最接近的人类机动动作:
这一策略能产生类人且保守的 fallback 行为,在分布偏移情况下保持稳定性。
(2)规划器式专家:参考现有工作,本文采用特权规划器P,该规划器利用真实状态在仿真中生成反应式且优化后的轨迹滚动(图2(b2))。规划器式专家 定义为: 。与恢复式策略相比,规划器式专家依赖规则或成本启发式,偶尔会牺牲行为的类人性和真实性,但能提供强优化性和多样化的探索性滚动,丰富超越人类数据的专家监督信息。
可扩展虚实协同训练
协同训练策略:虚实协同训练是一种简单有效的策略,能够将真实数据和仿真数据整合用于规划任务。在本文的方法中,训练过程中从真实世界数据集D和仿真数据集 的混合集中随机采样,旨在保留人类驾驶分布的同时,减轻由潜在仿真伪影(如细微渲染不一致、时间抖动或不真实的光照和阴影)导致的视觉域退化。本文的全自动可扩展仿真数据生成框架,能够在固定真实数据量的前提下,通过逐步添加非重叠的仿真样本,实现训练数据总量的扩展。
协同训练所用规划器:为全面评估仿真数据对端到端规划器的有效性,本文选取了三种具有代表性的现代端到端规划范式:基于回归的规划器、基于扩散模型的规划器和基于词汇评分的规划器,并在协同训练实验中分别选用各范式的代表性模型。
(1)基于伪专家轨迹的协同训练:
基于回归和扩散模型的规划器依赖专家演示样本,因此协同训练过程可表示为:
其中, 表示模仿损失;D和 分别代表真实世界数据集和生成的仿真数据集;A表示专家轨迹,即D中的人类专家轨迹和 中的伪专家轨迹。对于基于词汇评分的规划器,其学习目标还需额外预测提炼了评价指标(如式6中的EPDMS)的奖励信号r:
其中, 表示奖励损失,λ为权重因子。
(2)仅基于奖励的协同训练:
对于基于词汇评分的规划器,如式4所示,当奖励信号对齐良好时,理论上无需专家轨迹。该规划器可在不受单一专家轨迹限制的情况下,探索能提升奖励的方向。协同训练过程可表示为:
因此,本文在基于规划器的仿真数据中,针对评分式规划器开展了纯奖励驱动的优化实验,以评估其充分利用仿真数据的潜力。
三、实验结果分析
排行榜结果
表1和表2分别展示了SimScale虚实协同训练在navhard和navtest基准测试集上针对三种规划器范式的排行榜结果。
navhard排行榜:所有模型在第一阶段和第二阶段均表现出显著的性能提升。值得注意的是,GTRS-Dense(V2-99)取得了47.2的得分,创下navhard的最新最优性能(SOTA)。这些结果表明,融入具有扩展分布的仿真数据,能显著提升模型在具有挑战性和未见过场景中的鲁棒性,且不会因仿真数据而遭受潜在的视觉退化影响。值得一提的是,性能较弱的基线模型(如LTF和DiffusionDrive)获益最为明显,性能提升超过20%,这表明结合本文仿真数据的虚实协同训练,能有效帮助模型更好地挖掘数据集信息,释放其潜在的学习能力。
navtest排行榜:所有模型均实现了高达2.9个百分点的持续性能提升,表明模型在大规模多样化场景下的性能更强。上述定量结果凸显了本文的仿真数据具有模型通用性,且通用的虚实协同训练实现了鲁棒性和泛化性的协同优化,这对于真实世界中可靠的闭环部署至关重要。
消融实验与数据缩放分析
不同规划器的数据缩放曲线:由于现有工作缺乏对固定真实世界数据量下仿真数据缩放行为的研究,本文采用对数二次函数建模性能与总数据量(仿真数据+真实数据)之间的关系:
其中, 表示总数据量为N时的规划器性能,a、b、c为通过非线性最小二乘法拟合的参数:
其中, 表示总数据量为 时的观测性能,M为数据点数量。若存在数据缩放趋势,则二次项系数a趋近于0,模型退化为对数线性关系;否则,曲线呈抛物线形状,存在明显的饱和点。本文在图3所示的仿真数据缩放设置下,评估了四种规划器在两种伪专家策略下的性能,并选取navhard中的EPDMS作为 。图4展示了缩放曲线和拟合的对数二次函数,误差带表示残差标准差。此外,本文还针对GTRS-Dense,在基于规划器的仿真数据中提出了仅奖励评分的额外实验。从图4中可观察到一些典型趋势,例如对比图4(c)和(d)中规划器式专家与仅奖励评分的设置,在相同数据量下,更大规模的模型表现出更显著的数据缩放趋势。其他有趣且有意义的发现如下:
伪专家应具备探索性:对于所有规划器,恢复式策略下的缩放曲线收敛更早,且性能低于规划器式策略。恢复式专家始终引导轨迹向人类驾驶日志靠拢,当从相同真实场景中扩展仿真数据时,会限制数据多样性。相比之下,规划器式专家能探索更广泛的可能性,甚至在具有挑战性的场景中提供可行解决方案。因此,与规划器式策略相比,恢复式专家仅在小数据量场景下表现出优势(图4(d)),这可能是因为其轨迹分布与真实世界数据更契合,更易于学习。在大多数情况下,随着数据缩放,恢复式策略的性能提升边际效益递减。这些观察结果凸显了伪专家探索性行为的重要性,它能提升缩放场景下仿真数据的价值。
多模态建模激发缩放潜力:尽管基于回归的LTF和基于扩散模型的DiffusionDrive模型规模相当(5600万参数 vs 6100万参数),但在规划器式策略下,两者的缩放特性存在显著差异(图4(a)和(b))。对于LTF,当仿真数据与真实数据比例达到1:1时,性能达到饱和并开始下降;而DiffusionDrive则表现出近似线性的性能提升。这是因为来自相同真实场景的演示样本多样性逐渐增加,带来了有效的多模态监督问题。单模态回归模型难以建模多峰分布,导致模态混淆和性能下降,而扩散模型能够捕捉多模态特征,因此更适合在多样化监督下进行优化。由于真实世界自动驾驶本质上是一个多峰问题,本文的仿真缩放结果强调了多模态建模对于可扩展真实世界端到端自动驾驶的重要性。
奖励信号足矣:在图4(c)和(d)中,对于基于评分的GTRS-Dense规划器,仅使用仿真数据中的奖励信号(无需专家轨迹)就能实现更优的性能。为进一步分析这一现象,本文在仅使用真实世界数据的情况下进行了仅奖励驱动的训练,结果如表3所示,性能反而下降。这些结果表明,在足够的专家监督以稳定优化方向的前提下,奖励引导能发挥更好的效果。模型在环境探索和交互过程中,能从奖励反馈中获益。
反应式仿真的影响:为分离反应式交通的影响,本文对比了基于奖励评分的GTRS-Dense在navhard上使用非反应式和反应式仿真数据的性能(表4)。两轮非反应式采样生成了14.1万条轨迹(由于碰撞率更低,比反应式多5.4万条有效样本),但EPDMS未得到任何提升;当反应式仿真进行到第三轮时,生成了12.4万条样本(比非反应式少1.8万条),但在两种模型规模下均实现了持续且显著的EPDMS提升。这些结果表明,反应式智能体动态提升了交通交互的真实性和多样性,进而增强了仿真数据的有效性。
仿真场景的定性结果
图5展示了仿真数据的定性可视化结果,呈现了四种用于训练策略的代表性OOD场景。这些场景模拟了学习到的策略容易出错的典型真实世界驾驶挑战,包括(a)车道偏离中心、(b)近碰撞、(c)驶离可行驶区域和(d)车辆加塞。每个场景均通过俯视图展示作为监督信号的伪专家轨迹和作为历史动作的偏离扰动轨迹,并附上作为策略感官输入的合成前视图图像。例如,场景(b)要求策略在短时间域内自适应避免碰撞。
四、结论
本文提出了SimScale,最新的仿真学习系统,揭示了大规模仿真如何放大真实世界数据集在端到端自主驾驶中的价值。在仿真数据生成流程方面,本文首先通过在交互环境中对自车轨迹进行扰动,从潜在的分布外状态中生成伪专家演示数据。为实现贴近真实世界的仿真效果,本文利用3DGS引擎渲染出高保真的多视角观测数据。基于这些仿真数据,虚实协同训练在具有挑战性的真实世界基准测试中,显著提升了各类规划器的鲁棒性和泛化性——在navhard基准上EPDMS评分最高提升6.8分,在navtest基准上最高提升2.9分。
值得注意的是,在固定真实世界数据集的情况下,该虚实系统随着仿真数据量的增加,呈现出清晰且可预测的性能扩展趋势。本文进一步发现,探索性的伪专家设计和交互环境能够提升仿真数据的有效性,而具备多模态建模能力的规划器则会展现出更优的数据扩展特性。本文希望SimScale能够启发学术界进一步探索真实世界仿真在数据扩展方面的应用。
自动驾驶之心
更多自动驾驶的前沿技术进展、行业动态及求职咨询,欢迎加入「自动驾驶之心知识星球」


1650

被折叠的 条评论
为什么被折叠?



