Omni-Scene：Gaussian统一表征下的自动驾驶多模态生成新SOTA！-优快云博客

本文链接：https://blog.youkuaiyun.com/CV_Autobot/article/details/144548342

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享西湖大学最新的工作—Omni-Scene！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

论文作者 | Dongxu Wei等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

西湖大学和浙大的工作，利用3DGS的统一表征，结合扩散模型打通自动驾驶场景的多模态生成。近期生成+重建的算法越来越多，这说明单重建或者单生成可能都没有办法很好的cover闭环仿真，所以现在的工作尝试两者结合，这块应该也是后面闭环仿真落地的方向。

先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。然而，这种表示需要交叉视图重叠才能进行精确的深度估计，并且受到对象遮挡和截头体截断的挑战。因此，这些方法需要以场景为中心的数据采集来保持交叉视图重叠和完整的场景可见性，以规避遮挡和截断，这限制了它们在以场景为核心的重建中的适用性。相比之下，在自动驾驶场景中，一种更实用的范式是以自车为中心的重建，其特征是最小的交叉视图重叠和频繁的遮挡和截断。因此，基于像素的表示的局限性阻碍了先前工作在这项任务中的实用性。鉴于此，本文对不同的表示方法进行了深入分析，并引入了具有定制网络设计的泛高斯表示方法，以补充其优点并减轻其缺点。实验表明，在以自车为中心的重建中，Omni-Scene明显优于最先进的像素Splat和MVSplat方法，并在以场景为中心的重构中取得了与先前工作相当的性能。此外Omni-Scene用扩散模型扩展了我们的方法，开创了3D驾驶场景的前馈多模态生成。

论文链接：https://arxiv.org/abs/2412.06273

总结来说，本文的主要贡献有以下几个方面：

我们提出了Omni Scene，这是一种全高斯表示，具有量身定制的网络设计，用于自我中心重建，利用了基于像素和体积的表示，同时消除了它们的缺点。
将一种新的以自我为中心的重建任务引入到驾驶数据集（即nuScenes）中，目的是在仅给出单帧周围图像的情况下进行场景级3D重建和新颖的视图合成。我们希望这能促进该领域的进一步研究。
实验表明，我们的方法在自我中心任务上明显优于最先进的前馈重建方法，包括pixelSplat和MVSplat。进一步还通过在RealEstate10K数据集上执行以场景为中心的任务的先前工作获得了具有竞争力的性能。
通过将Omni Scene与2D扩散模型集成来展示其生成潜力，开创了一种以前馈方式多模态生成3D驾驶场景的新方法。

Omni-Scene方法详解

方法的整体框架图如下所示：

Volume Builder

体积生成器旨在使用基于体积的高斯模型预测粗略的3D结构。主要的挑战是如何将2D多视图图像特征提升到3D体积空间，而不显式地保持密集的体素。我们使用Triplelane Transformer来解决这个问题。然后，提出了体积解码器来预测体素锚定高斯GV。

Triplane Transformer。由于H×W×Z的立方复杂度，将体积表示为体素并为每个体素编码特征是昂贵的。因此，我们采用三平面将体积分解为三个轴对齐的正交平面HW、ZH和WZ。一些对象级3D重建工作也采用三平面表示来压缩体积。然而，它们要么依赖于三平面和图像之间密集的每像素交叉注意力，要么要求输入图像也与三平面对齐，以进行直接的2D级特征编码。它们都不适合具有更大体积和无约束数据收集的真实场景。

受最近3D感知方法]的启发，我们的三平面变换器利用可变形的交叉注意力，在2D和3D空间之间实现稀疏但有效的空间相关性。这里我们以HW平面的特征编码为例进行说明。如图3（b）所示，我们定义了一组网格形状的可学习嵌入作为transformer的平面查询，其中C表示嵌入通道。然后，对于位于（h，w）处的查询，我们将其扩展为沿Z轴均匀分布的多个3D柱点，并通过将它们投影回输入视图来计算它们在2D空间中的参考点Ref。由于这种透视投影的稀疏性，qh、w将只关注1/2输入视图中最相关的2D特征，以平衡效率和特征表现力。上述操作，即交叉图像可变形注意，在图3（b）中由紫色虚线箭头表示。我们推导如下：

考虑到查询柱点可能被遮挡或位于任何输入视图的截头锥体范围之外，我们进一步利用跨平面可变形注意力来丰富这些点的跨平面上下文。特别是，对于查询，我们将其坐标（h，w）投影到HW、ZH和WZ平面上，以获得三组参考点。

我们从不同的平面提取上下文信息，从而增强图3（b）中红色虚线箭头所示的特征。推导如下：

对所有平面的查询重复这两种交叉注意力，我们可以获得具有丰富语义和空间上下文的三平面特征，而不依赖于交叉视图重叠，这对于之前仅依赖基于像素的高斯表示的方法来说是必要的。

Volume解码器。然后，我们提出了体积解码器来估计体素锚定高斯分布。具体来说，给定一个位于（h，w，z）的体素，我们首先将其坐标投影到三个平面上，通过双线性插值获得平面特征，然后进行平面求和，得出聚合的体素特征。

Pixel Decorator

Pixel Decorator由多视图U-Net和像素解码器组成，分别负责提取跨视图相关特征和预测基于像素的高斯GP。由于GP是在与细粒度图像空间对齐的情况下获得的，因此它可以为粗体素锚定的高斯GV添加细节。此外，由于GP可以不投影到无限距离的位置，因此它可以用距离高斯来补充体积有界GV。

多视图U-Net concat图像特征；
像素解码器对U-Net特征进行上采样。

Volume-Pixel Collaboration

全高斯表示的核心在于基于体积和像素的高斯表示的协作。为此，我们提出了一种双重方法，可以从两个方面进行协作：基于投影的特征融合和深度引导的训练分解。

基于投影的特征融合。我们的Volume Builder预计将在输入视图中遮挡或截断的位置预测高斯分布，这超出了Pixel Decorator的设计目的。因此，为了使Volume Builder知道遮挡或截断发生的位置，我们建议将三平面查询与基于像素的高斯GP的投影特征融合。以HW平面为例，我们首先过滤掉GP中超出H×W×Z体积范围的高斯分布。然后，我们收集GP剩余高斯人的U-Net特征，并将其投影到HW平面上。投影到相同查询位置的特征被平均合并，并在线性层转换后添加到QHW的相应查询中。同样的过程也适用于ZH和WZ平面。我们在实验中证明，这种特征融合促进了GV和GP之间的互补相互作用，从而提高了性能。

Depth-Guided Training Decomposition：为了进一步加强协作，我们提出了一种深度引导训练分解方法，根据基于像素和体积的高斯的不同空间属性来分解我们的训练目标。

整体损失函数如下：

实验结果

结论

本文提出了Omni-Scene，这是一种具有Omni高斯表示的方法，可以在基于像素和体积的高斯表示中达到最佳效果，用于自我中心稀疏视图场景重建。采用鼓励体像素协作的设计，我们仅从周围的单帧观测中实现了高保真场景重建。大量实验表明，与以前的方法相比，我们在自我中心重建方面具有优势。此外，我们将2D扩散模型集成到我们的框架中，这使得多模态3D场景生成具有多种应用。

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行，展览面积达到2万平方米，预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展，它将全面展示新能源汽车行业的最新成果和发展趋势，同期围绕个各关键板块举办论坛，欢迎报名参加。

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）