北大升级DrivingGaussian++：无需训练，智驾场景自由编辑！

原创

于 2025-09-01 07:31:30 发布 · 879 阅读

28 ·

CC 4.0 BY-SA版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

今天自动驾驶之心为大家分享北京大学&谷歌 DeepMind最新的工作！无需训练，自由编辑：DrivingGaussian++颠覆场景仿真！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群加入，也欢迎添加小助理微信AIDriver005

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Yajiao Xiong等

编辑 | 自动驾驶之心

相信做 learning-based 任务的业内人士都有一个共识：数据一直是自动驾驶发展的一个重要基石，数据的多样性和标注的质量很大程度上决定模型的性能和潜力。自动驾驶发展到今天，需要大家用 80% 的精力去解剩下的 20% 的长尾场景，而往往长尾场景的数据采集并不是一件容易的事情，这就诞生了一个细分领域 —— 3D场景编辑。通过3D场景编辑，可以仿真各种真实世界的驾驶条件，从而增强自动驾驶系统的鲁棒性和安全性。

3D场景编辑任务 涵盖多种组成部分，包括风格迁移、运动修改、天气仿真以及目标的添加或移除。然而，这些编辑任务各有各的特点和难点，导致现有的编辑工具往往只能专攻某一项，缺少一个“全能型”的框架。目前常用的办法是先对2D画面进行编辑，效果好是好，但为了确保从各个角度看都一致，就得反复调整，非常耗时耗力。所以，这种方法很难用在大规模的自动驾驶仿真上。

要想对3D场景进行编辑，首先得把它精准地重建出来，这对于自动驾驶的测试至关重要。但重建场景本身就是一个大难题：车上装的传感器数量有限，车还在高速运动，采集到的数据既稀疏又不完整。再加上车周摄像头都是朝外安装，视野重叠区域小，光线条件也不统一，导致把不同角度、不同时间的画面拼成一个完整的3D场景格外困难。这种360度、大范围、动态变化的场景，想要建得准确、逼真，真的非常具有挑战性。

在本文中，作者提出 DrivingGaussian++（CVPR 2024 的工作 DrivingGaussian 的续作），核心思想是 利用来自多个传感器的序列数据对复杂的驾驶场景进行分层建模。作者采用复合 GS（Composite Gaussian Splatting）将场景分解为静态背景和动态目标，并分别重建每个部分。在此基础上，通过 GS 进行全局渲染捕捉真实世界中的遮挡，包括静态背景和动态目标。此外，作者将 LiDAR 先验融入高斯表示中，从而能够恢复更精确的几何结构并保持更好的多视图一致性。

论文题目: DrivingGaussian++: Towards Realistic Reconstruction and Editable Simulation for Surrounding Dynamic Driving Scenes
论文链接：https://arxiv.org/pdf/2508.20965

与CVPR 2024上发表的初步结果的差异。 作者在几个方面扩展了之前的工作：

基于复合 GS 表示大规模动态驾驶场景，引入了两个新颖模块，包括增量静态3D高斯（Incremental Static 3D Gaussians）和复合动态高斯图（Composite Dynamic Gaussian Graphs）。前者增量地重建静态背景，而后者使用高斯图对多个动态目标进行建模。
构建了一个场景编辑框架，以无需训练的方式编辑重建的场景，涵盖多个任务，包括纹理修改、天气仿真和目标操纵。它有助于生成新颖且真实的仿真数据。
实现了驾驶场景的动态编辑，预测插入场景中的粒子的运动轨迹。
通过3D生成和重建构建了一个前景资源库，并验证了数据的质量。

方法论

作者的目标是在 3D 自动驾驶场景中实现无需训练的编辑。为了处理多个编辑任务，作者提出了一个可控且高效的框架。首先，作者采用复合 GS (Composite Gaussian Splatting) 精确重建动态驾驶场景。接下来，作者识别场景中待修改的特定高斯，或生成新的高斯以仿真特定的物理实体。这些目标高斯随后被集成到原始场景中，并预测目标的未来轨迹。最后，作者使用图像处理技术细化结果以增强真实感。使用此框架，作者为三个关键任务开发了详细的编辑方法：纹理修改、天气仿真和目标操纵。方法如图 3 所述。

复合 GS

3DGS 在静态场景中表现良好，但在涉及大规模静态背景和多个动态目标的混合场景中具有显著局限性。如图 4 所示，作者的目标是使用复合 GS 来表示环视的大规模驾驶场景，用于无界的静态背景和动态目标。

带有环视视图的 LiDAR 先验

原始的 3DGS 尝试通过运动恢复结构 (SfM， structure-from-motion) 来初始化高斯。然而，用于自动驾驶的无界城市场景包含许多多尺度的背景和前景。但是它们仅通过极其稀疏的视图被看见，导致几何结构的错误和不完整恢复。

为了给高斯提供更好的初始化，作者将 LiDAR 先验引入 3D 高斯以获得更好的几何结构，并在环视视图配准中保持多摄像头一致性。在每个时间步，给定收集的一组多摄像头图像和多帧 LiDAR 扫描。作者利用 LiDAR-图像多模态数据最小化多摄像头配准误差，并获得精确的点位置和几何先验。

作者首先合并多帧 LiDAR 扫描以获得场景的完整点云，记为。作者遵循 Colmap 并分别从每个图像中提取图像特征。接下来，作者将 LiDAR 点投影到环视图像上。对于每个 LiDAR 点，作者将其坐标转换到相机坐标系，并通过投影将其与相机图像平面的 2D 像素匹配：

其中是图像的 2D 像素，，和分别是正交旋转矩阵和平移向量。此外，代表已知的相机内参。值得注意的是，来自 LiDAR 的点可能会投影到多个图像的多个像素上。因此，作者选择到图像平面欧几里得距离最短的点，并将其保留为投影点，并分配颜色。

与现有的一些 3D 重建方法类似，作者将密集束调整 (DBA, dense bundle adjustment) 扩展到多摄像头设置并获得更新的 LiDAR 点。实验结果表明，使用 LiDAR 先验进行初始化以与环视多摄像头对齐，有助于为高斯模型提供更精确的几何先验。

增量静态 3D 高斯

驾驶场景的静态背景由于其大规模、长持续时间以及由自车移动和多摄像头变换引起的变化，对场景建模和编辑构成了挑战。随着车辆的移动，静态背景经常经历时间偏移和动态变化。由于透视原理，过早地合并远离当前时间步的遥远街道场景会导致尺度混淆，从而产生令人不快的伪影和模糊。为了解决这个问题，作者通过引入增量静态 3D 高斯来改进 3DGS，利用车辆运动引入的透视变化和相邻帧之间的时间关系，如图 5 所示。

作者根据 LiDAR 先验提供的深度范围，将静态场景统一划分为个区间 (bins)。这些区间按时间顺序排列，记为，每个区间包含来自一个或多个时间步的多摄像头图像。相邻的区间有一个小的重叠区域，用于对齐两个区间的静态背景。然后将后一个区间增量地融合到前几个区间的高斯场中。对于第一个区间内的场景，作者使用 LiDAR 先验（同样适用于 SfM 点）初始化高斯模型：