点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享西湖大学联合浙大最新的工作!Omni-Scene:自动驾驶场景重建新突破,端到端的稀疏视角3DGS重建!今晚八点,锁定自动驾驶之心直播间。如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『3D重建』技术交流群
论文作者 | Peidong Liu等
编辑 | 自动驾驶之心
本文是西湖大学刘沛东教授团队在场景级3D重建大模型领域的最新研究成果,相关论文已被 CVPR 2025 接收,代码/数据/模型权重已开源。
论文链接:https://arxiv.org/abs/2412.06273
项目代码:https://github.com/WU-CVGL/Omni-Scene
团队主页:https://ethliup.github.io/
自动驾驶之心很荣幸邀请到西湖大学博士后—韦东旭,为大家分享这篇CVPR'25中稿的工作!今晚八点,锁定自动驾驶之心直播间~
工作简介
背景与动机
此前3D重建大模型工作如LGM、pixelSplat、MVSplat等,主要关注以物体或场景为中心(Scene-Centric)的多视角重建,其要求输入图像之间存在较大的视角重叠,在应用时往往需要围绕物体或场景拍摄多张图像或视频。
这种较为低效的输入采集方式,不适用于对实时性要求很高的自动驾驶或具身智能领域的应用,其最理想的情况是:基于车辆/机器人当前位置所拍摄的图像,即可重建场景的3D外观和结构,使得智能系统可以在空间层面进行即时的交互和理解。
本文基于此观察,旨在研究一种以车辆/机器人为中心(Ego-Centric)的多视角3D重建大模型,无需围绕场景移动,基于单帧所拍摄的多视角图像,即可实现即时的大规模场景3D重建。
从上述目标出发,本文发现限制此前方法仅适用于以物体或场景为中心(Scene-Centric)重建的一个重要原因在于:此前方法所使用的像素对齐的3D表示方式,依赖于输入图像间的视角重叠来获取深度信息,从而将2D图像信息升维至3D空间,实现3D层面的重建相关参数的预测(如:NeRF、3DGS)。因此,本文试图从3D表示上改进来避免该问题。受基于体积3D表示的3D感知领域工作(如:BEVFormer、TPVFormer)的启发,本文认为体积表示可以直接在3D层面融合多视角的2D特征,无需预测深度,可以很好地补足此前基于像素表示的缺陷。
故而本文对不同3D表示的特点进行了如图1所示的分析,可以看到对于像素表示,其沿相机射线方向做反投影的方式有2个缺陷:(1)无法预测被遮挡的物体;(2)无法重建视锥以外的空间。而体积表示则恰好避开了这两个缺陷,然而其也存在2个问题:(1)受限于长宽高范围,无法表示远处的建筑或天空等;(2)受限于O(n3)的复杂度,难以精细化表示场景外观。这2个问题又正好被像素表示所弥补。

考虑到上述不同表示的优缺点及其互补性,本文提出了一种新颖的Omni-Gaussian表示方法,并为其精心设计了网络框架,从而对此前表示方法取长补短,实现不依赖于多视角重叠的Ego-Centric场景重建。在nuScenes数据集上的大量实验表明,本文所提出的基于Omni-Gaussian表示的方法在Ego-Centric重建任务上相比于此前方法具有巨大优势,证明了本文方法的有效性。此外,同2D图像生成方法如MagicDrive结合,本文还可实现多模态控制的3D场景生成,为前馈式(feed-forward)的场景级3D生成开辟了一种可能性。
技术方案
1. 整体框架:
如图2所示,本文的整体框架由共享多视角图像特征的体积分支(Volume Builder)和像素分支(Pixel Decorator)构成,它们分别用来预测基于体素和像素的3D高斯球参数,并通过对齐融合重建完整的3D场景。以下是每个分支的具体方法介绍。

2. 体积分支(Volume Builder):
如图2(b)所示,体积分支采用稀疏的三平面(triplane)特征以节省计算开销,其通过三个平面的特征插值获取每个体素位置的特征,并预测以体素为锚点(anchor)的3D高斯球,以实现粗粒度的3D场景重建,描绘其大体结构。为了将2D图像特征转换到triplane,本文借鉴3D感知工作中常用的可变形注意力机制(Deformable Attention),从2个维度对triplane特征进行编码和增强。其一,为了将多视角2D图像特征升维至3D,本文先将triplane每个位置扩展成柱状空间体素,接着利用相机参数确定体素的3D坐标对应哪些2D图像坐标,并通过可变形注意力为每个体素抽取其空间上相关联的局部2D特征,以获得3D层面的特征编码。其二,为了促进triplane不同平面特征的对齐与融合,本文将每个平面所扩展的柱状体素投影到另外2个平面,并通过可变形注意力融合其相关联的另外2个平面上的局部3D特征,以实现3D层面的特征增强。以上两种可变形注意力机制的公式如下:


其中,CIDA和CPDA分别对应triplane到2D图像、triplane各平面之间的两种注意力操作。
3. 像素分支(Pixel Decorator):
如图2(c)所示,像素分支采用了多视角U-Net网络(Multi-View U-Net),并在网络的每一层施加多视角特征间的交叉注意力机制,以促进相邻视角间的信息交互。基于网络末端输出的多个视角的像素特征,可以预测每个视角的像素深度和对应的3D高斯球参数,其映射到3D空间后可实现细粒度的3D场景重建,用于为体积表示所重建的粗粒度场景补充外观细节。为了降低Ego-Centric场景下深度预测的难度,本文还提出用Metric3D-v2粗略预测像素深度,用于初始化3D高斯球的位置,发现其可提升像素分支的重建效果。上述基于像素到3D空间映射的3D高斯参数映射可由如下公式表示:

其代表根据深度将相机坐标沿像素的射线方向移动并施加offset偏移。
4. 不同表示间的互补机制(Volume-Pixel Collaboration):
本文的一个核心目标是促进上述两种表示的互补,考虑到两种表示的不同特性,本文提出了如图2所示的2个维度的设计。其一为Featrure Projection,为了促进两种表示在3D空间上的对齐,使得它们能够各自感知到另一种表示需要被补足的空间区域,本文提出将通过深度映射至3D空间的像素特征投影到triplane的各个平面上,以使得两种表示的特征在3D空间是互补对齐的。其二为Training Decomposition,考虑到体积表示长宽高受限的空间范围,其不适用于重建HWZ范围外的场景,本文提出基于像素表示所预测的深度,对本文的训练目标进行解耦。具体地,本文基于每个target视角所预测的深度将像素坐标投影到3D坐标,并将这些3D坐标中位于自车HWZ范围外的像素筛选出来,不计入损失函数的计算,使得体积表示可以专注于HWZ体积内的3D重建,并让像素表示来补充HWZ体积外的3D重建。因此,本文的总体损失函数如下:

其由full和volume两部分组成,以实现训练目标的解耦。
实验结果分析
本文基于nuScenes构建了一个Ego-Centric稀疏视角3D场景重建任务,并展开了实验,其包含135,941个训练场景和30,080测试场景。同时,本文还在RealEstate10K数据集上进行了实验,用于验证方法在Scene-Centric任务上的兼容性。从表1可以看出,本文方法在两个数据集的新视角合成和深度预测任务上的效果都显著优于此前基于像素表示的SOTA方法(包括:pixelSplat、MVSplat),验证了Omni-Scene方法的有效性。此外,表2的消融实验详细论证了本文各模块的性能增益,验证了本文各项设计的有效性。


总体来说,基于6张Ego-Centric的环视多视角图像,本文的Omni-Scene方法可以在0.1秒内完成3D场景的重建。以下图3展示了我们在重建的3D场景中进行新视角合成的效果。

此外,通过与自动驾驶domain的2D图像生成方法MagicDrive结合(即:先生成多视角2D图像,再重建3D场景),本文还可以实现如图4所示的基于语义地图、3D目标框、文本的多模态可控的3D场景生成,初步探索了场景级的前馈式(feed-forward)3D生成的可能性,拓宽了本文方法的应用场景。

个人和团队信息
韦东旭
本文第一作者,浙江大学博士毕业,曾于阿里巴巴达摩院城市大脑实验室从事视觉算法研究,目前在西湖大学计算机视觉和几何深度学习实验室担任博士后。研究方向为可泛化的三维重建与生成、空间智能感知与理解。
西湖大学-计算机视觉和几何深度学习实验室
该实验室由刘沛东教授创立。刘沛东教授博士毕业于苏黎世联邦理工学院(ETH Zurich),师从 Marc Pollefeys 教授和 Andreas Geiger 教授,2021年获得计算机科学专业科学博士学位后加入西湖大学,目前已在CVPR、ICCV、ECCV、NeurIPS、ICLR、ICRA、TRO等国际顶级会议或期刊上发表论文40余篇。团队研究主要集中在三维计算机视觉、机器人和具身智能等领域,成员均来自上海交大、同济、西安交大、美国西北大学等海内外知名高校,拥有计算机科学与技术、自动化、机械电子等多专业背景。欢迎大家前来访问交流与合作。
① 自动驾驶论文辅导来啦
② 国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描加入

③全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
④【自动驾驶之心】全平台矩阵