SceneDiffuser++：基于生成世界模型的城市规模交通仿真（CVPR‘25）

转载于 2025-07-22 07:31:26 发布 · 68 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247672142&idx=2&sn=5e4eba2fcc686907b63215808992df52&chksm=cf4d019e7f592ffeac54afef802ccc1b9728b8b1bcfac4e634f626ce8cda75d446a555ab537e&scene=126&sessionid=0

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享Waymo LLC & UT Austin最新的工作！SceneDiffuser++：首个端到端生成式世界模型实现60秒城市级交通仿真！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Shuhan Tan等

编辑 | 自动驾驶之心

引言与背景

交通仿真的核心目标是通过大量合成仿真里程，补充有限的真实驾驶里程，以支持自动驾驶系统的测试与验证。理想状态下，一个生成式仿真城市（称为CitySim）应能基于城市地图和自动驾驶软件栈，无缝仿真从A点到B点的完整行程——不仅能生成初始场景、驱动动态代理（车辆、行人等），还能控制交通灯等环境因素，实现场景的全方面动态管理。

实现CitySim需要整合多项技术：场景生成（初始化场景）、代理行为建模（驱动场景动态）、遮挡推理、动态场景生成（代理的生成与移除）以及环境仿真（如交通灯控制）。现有技术在动态场景生成和环境仿真等方面关注较少，而SceneDiffuser++作为首个端到端生成式世界模型，通过单一损失函数训练，整合了上述所有需求，实现了城市级A到B点的完整仿真。

与主流的事件级仿真（通常短于10秒）不同，行程级仿真（trip-level）需要处理更长时间的动态变化：初始代理可能离开视野，新代理需无缝进入，交通灯状态需随路线动态更新，否则会出现“仿真漂移”（simulation drift）——即仿真场景与真实世界的偏差累积。SceneDiffuser++的核心价值在于解决这些行程级仿真的关键挑战。

核心挑战与创新点

行程级仿真的独特挑战

相比事件级仿真，行程级仿真面临三大核心挑战：

动态代理管理：代理需随时间自然生成（进入场景）和移除（离开场景），而非固定初始集合；
遮挡推理：代理可能被障碍物遮挡（occlusion）后重新出现（disocclusion），需准确建模可见性；
环境动态性：交通灯等环境因素的状态需随时间和位置动态变化，影响代理行为。

SceneDiffuser++解析

为应对这些挑战，SceneDiffuser++提出以下创新：

统一生成式世界模型：通过扩散模型（diffusion model）统一建模代理和交通灯等异质场景元素，无需拆分模块；
稀疏张量学习：引入“有效性通道”（validity channel），与代理的位置、大小等特征共同预测，实现代理生成、移除、遮挡的联合建模（图3）；

多张量扩散：将不同维度的场景元素（如代理和交通灯）投影到统一潜在空间，通过Transformer backbone处理，支持异质元素的联合仿真（图2）；

soft clipping：推理时通过软剪辑策略稳定稀疏张量的生成，避免硬剪辑导致的不自然跳跃，确保代理生成/移除的平滑性。

方法详解

场景张量与多张量建模

SceneDiffuser++将场景表示为场景张量（scene tensor），其中每个元素（代理或交通灯）的特征包括：

代理：有效性（是否可见）、位置、大小、类型等；
交通灯：有效性、位置、状态（红/绿/黄等）。

多个场景张量（如代理张量和交通灯张量）构成多张量（multi-tensor），模型通过投影层将不同维度的张量转换为统一潜在维度，再通过Transformer进行联合去噪（denoising），最终还原为原始维度的场景元素（图2）。这种设计允许模型同时处理代理和交通灯等异质元素的动态变化。

扩散模型的训练与推理

SceneDiffuser++基于扩散模型原理：正向过程逐步向场景张量添加高斯噪声，反向过程通过去噪网络预测原始信号。训练时，对无效代理的特征（如被遮挡或未生成的代理）赋值为0，并通过损失掩码（loss mask）聚焦有效特征的学习；推理时，通过软剪辑将低有效性的代理特征压制为0，实现稀疏张量的稳定生成（图3）。

训练损失函数定义为：

其中，为场景张量，为上下文（如地图），为扩散步骤，为损失权重，模型通过该损失学习从含噪信号中恢复真实场景的能力。

任务建模

SceneDiffuser++将不同仿真任务统一为inpainting tasks：

行为预测（BP）：已知历史步骤，预测未来步骤（掩码历史为1，未来为0）；
场景生成（SceneGen）：已知部分代理，预测其余代理（掩码已知代理为1，待预测为0）；
控制掩码：通过随机0/1掩码增强模型的可控性。

实验验证

数据集与评估指标

实验基于WOMD-XLMap（扩展了地图范围的Waymo Open Motion Dataset），支持公里级路线的长时仿真。评估采用Jensen-Shannon（JS）散度，衡量仿真数据与真实数据的分布差异（值越低，仿真越真实），指标包括：

有效代理数量、生成/移除代理数量及距离；
离路率（offroad rate）、碰撞率；
平均速度、交通灯状态转换概率等。

核心结果

与IDM（基于规则的模型）和SceneDiffuser（前序扩散模型）相比，SceneDiffuser++在所有指标中表现更优：

代理生成与移除：生成/移除代理的数量和距离分布与真实数据更接近（JS散度更低），例如当IDM作为规划器时，SceneDiffuser++的“生成代理数量”JS散度为0.1947，远低于IDM的0.6357和SceneDiffuser的0.7027（表1）；

交通灯仿真：交通灯状态转换概率与真实数据高度一致（图8），而IDM和SceneDiffuser不支持交通灯仿真；

长时稳定性：60秒仿真中，SceneDiffuser++能保持代理动态性和交通灯合理性，而SceneDiffuser的代理会停滞在初始位置（图4）。

关键设计的有效性

软剪辑策略：在稀疏张量生成中，软剪辑的综合性能（如碰撞率、离路率）优于硬剪辑和无剪辑（表3）；

重规划频率：更频繁的重规划（如每10步一次）能降低碰撞率，但可能影响代理生成的自然性（表2）；

仿真时长：随仿真时长增加（30秒到300秒），误差累积导致部分指标下降，但代理生成/移除的位置合理性仍保持稳定（表2）。

结论与意义

SceneDiffuser++的核心贡献在于：

提出CitySim概念，明确行程级仿真的需求与挑战；
设计统一生成式框架，首次整合代理动态生成、遮挡推理和交通灯仿真；
通过稀疏张量学习和软剪辑，解决扩散模型在动态场景生成中的稳定性问题。

参考

[1] SceneDiffuser++: City-Scale Traffic Simulation via a Generative World Model

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com