Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享西湖大学最新的工作—Omni-Scene!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心3DGS技术交流群

论文作者 | Dongxu Wei等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

西湖大学和浙大的工作,利用3DGS的统一表征,结合扩散模型打通自动驾驶场景的多模态生成。近期生成+重建的算法越来越多,这说明单重建或者单生成可能都没有办法很好的cover闭环仿真,所以现在的工作尝试两者结合,这块应该也是后面闭环仿真落地的方向。

b2571fa31e2a20738d5b3943db07ffbd.png

先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。然而,这种表示需要交叉视图重叠才能进行精确的深度估计,并且受到对象遮挡和截头体截断的挑战。因此,这些方法需要以场景为中心的数据采集来保持交叉视图重叠和完整的场景可见性,以规避遮挡和截断,这限制了它们在以场景为核心的重建中的适用性。相比之下,在自动驾驶场景中,一种更实用的范式是以自车为中心的重建,其特征是最小的交叉视图重叠和频繁的遮挡和截断。因此,基于像素的表示的局限性阻碍了先前工作在这项任务中的实用性。鉴于此,本文对不同的表示方法进行了深入分析,并引入了具有定制网络设计的泛高斯表示方法,以补充其优点并减轻其缺点。实验表明,在以自车为中心的重建中,Omni-Scene明显优于最先进的像素Splat和MVSplat方法,并在以场景为中心的重构中取得了与先前工作相当的性能。此外Omni-Scene用扩散模型扩展了我们的方法,开创了3D驾驶场景的前馈多模态生成。

  • 论文链接:https://arxiv.org/abs/2412.06273

总结来说,本文的主要贡献有以下几个方面:

  • 我们提出了Omni Scene,这是一种全高斯表示,具有量身定制的网络设计,用于自我中心重建,利用了基于像素和体积的表示,同时消除了它们的缺点。

  • 将一种新的以自我为中心的重建任务引入到驾驶数据集(即nuScenes)中,目的是在仅给出单帧周围图像的情况下进行场景级3D重建和新颖的视图合成。我们希望这能促进该领域的进一步研究。

  • 实验表明,我们的方法在自我中心任务上明显优于最先进的前馈重建方法,包括pixelSplat和MVSplat。进一步还通过在RealEstate10K数据集上执行以场景为中心的任务的先前工作获得了具有竞争力的性能。

  • 通过将Omni Scene与2D扩散模型集成来展示其生成潜力,开创了一种以前馈方式多模态生成3D驾驶场景的新方法。

e9015be4482038473535cbc12ec54c05.png

相关工作回顾

神经重建和渲染:最近利用神经渲染和重建技术的方法可以将场景建模为可学习的3D表示,并通过迭代反向传播实现3D重建和新颖的视图合成。NeRF因其在重建场景中捕捉高频细节的能力而受到认可。然而,在渲染过程中,它需要对每条光线进行密集的查询,尽管随后进行了加速,但这仍然导致了高计算需求,限制了其实时能力。3D高斯散斑(3DGS)通过使用3D高斯显式建模场景并采用高效的基于光栅化的渲染管道来缓解这个问题。尽管3DGS和NeRF及其变体在单场景重建中表现出了卓越的性能,但它们通常需要每个场景的优化和密集的场景捕获,这使得重建过程耗时且不可扩展。与这些工作不同,我们的方法可以在单次前向过程中从稀疏观测中重建3D场景。

隐式3D表示的前馈重建。这一系列工作将隐式3D先验(如NeRF或光场)纳入其网络中,以实现前馈重建。基于NeRF的方法利用具有多视图交叉注意力的Transformer,或使用极线和成本体积等投影3D先验来估计重建的辐射场,这继承了NeRF渲染的昂贵光线查询过程。因此,这些方法在训练和推理阶段都非常耗时。相比之下,基于光场的方法可以通过基于光线到图像的交叉注意力直接回归每条光线的颜色来绕过NeRF渲染,这牺牲了可解释性以提高效率。然而,由于缺乏可解释的3D结构,它们无法重建场景的3D几何形状。

三维高斯前馈重建。最近使用3DGS的方法可以实现可解释性和效率。通常,他们在网络中采用类似于基于NeRF的方法(例如,极线、成本量和多视图交叉注意力)的3D先验,并采用基于像素的高斯表示来预测沿射线的每像素高斯分布以进行重建。然而,这种基于像素的表示依赖于大的交叉视图重叠来预测深度,并且受到对象遮挡和截头锥体截断的影响,因此仅适用于以场景为中心的重建,适用性有限。相比之下,本文主要研究以自我为中心的重建,其特征是最小的交叉视图重叠和频繁出现的对象遮挡和截头体截断。这促使我们研究了一种新的3D表示方法,该方法不过度依赖于交叉视图重叠,同时可以解决基于像素的表示的局限性。

Omni-Scene方法详解

方法的整体框架图如下所示:

73759dd8245b9517599771329f005d24.png

Volume Builder

体积生成器旨在使用基于体积的高斯模型预测粗略的3D结构。主要的挑战是如何将2D多视图图像特征提升到3D体积空间,而不显式地保持密集的体素。我们使用Triplelane Transformer来解决这个问题。然后,提出了体积解码器来预测体素锚定高斯GV。

Triplane Transformer。由于H×W×Z的立方复杂度,将体积表示为体素并为每个体素编码特征是昂贵的。因此,我们采用三平面将体积分解为三个轴对齐的正交平面HW、ZH和WZ。一些对象级3D重建工作也采用三平面表示来压缩体积。然而,它们要么依赖于三平面和图像之间密集的每像素交叉注意力,要么要求输入图像也与三平面对齐,以进行直接的2D级特征编码。它们都不适合具有更大体积和无约束数据收集的真实场景。

受最近3D感知方法]的启发,我们的三平面变换器利用可变形的交叉注意力,在2D和3D空间之间实现稀疏但有效的空间相关性。这里我们以HW平面的特征编码为例进行说明。如图3(b)所示,我们定义了一组网格形状的可学习嵌入作为transformer的平面查询,其中C表示嵌入通道。然后,对于位于(h,w)处的查询,我们将其扩展为沿Z轴均匀分布的多个3D柱点,并通过将它们投影回输入视图来计算它们在2D空间中的参考点Ref。由于这种透视投影的稀疏性,qh、w将只关注1/2输入视图中最相关的2D特征,以平衡效率和特征表现力。上述操作,即交叉图像可变形注意,在图3(b)中由紫色虚线箭头表示。我们推导如下:

330df17c7a6da0d9897658e22da7ddb0.png

考虑到查询柱点可能被遮挡或位于任何输入视图的截头锥体范围之外,我们进一步利用跨平面可变形注意力来丰富这些点的跨平面上下文。特别是,对于查询,我们将其坐标(h,w)投影到HW、ZH和WZ平面上,以获得三组参考点。

2858c782bbf8477a5021acdc4094639d.png

我们从不同的平面提取上下文信息,从而增强图3(b)中红色虚线箭头所示的特征。推导如下:

1a6c4af72b1e9948e66f01d92e51a80c.png

对所有平面的查询重复这两种交叉注意力,我们可以获得具有丰富语义和空间上下文的三平面特征,而不依赖于交叉视图重叠,这对于之前仅依赖基于像素的高斯表示的方法来说是必要的。

Volume解码器。然后,我们提出了体积解码器来估计体素锚定高斯分布。具体来说,给定一个位于(h,w,z)的体素,我们首先将其坐标投影到三个平面上,通过双线性插值获得平面特征,然后进行平面求和,得出聚合的体素特征。

Pixel Decorator

Pixel Decorator由多视图U-Net和像素解码器组成,分别负责提取跨视图相关特征和预测基于像素的高斯GP。由于GP是在与细粒度图像空间对齐的情况下获得的,因此它可以为粗体素锚定的高斯GV添加细节。此外,由于GP可以不投影到无限距离的位置,因此它可以用距离高斯来补充体积有界GV。

  • 多视图U-Net concat图像特征;

  • 像素解码器对U-Net特征进行上采样。

Volume-Pixel Collaboration

全高斯表示的核心在于基于体积和像素的高斯表示的协作。为此,我们提出了一种双重方法,可以从两个方面进行协作:基于投影的特征融合和深度引导的训练分解。

基于投影的特征融合。我们的Volume Builder预计将在输入视图中遮挡或截断的位置预测高斯分布,这超出了Pixel Decorator的设计目的。因此,为了使Volume Builder知道遮挡或截断发生的位置,我们建议将三平面查询与基于像素的高斯GP的投影特征融合。以HW平面为例,我们首先过滤掉GP中超出H×W×Z体积范围的高斯分布。然后,我们收集GP剩余高斯人的U-Net特征,并将其投影到HW平面上。投影到相同查询位置的特征被平均合并,并在线性层转换后添加到QHW的相应查询中。同样的过程也适用于ZH和WZ平面。我们在实验中证明,这种特征融合促进了GV和GP之间的互补相互作用,从而提高了性能。

Depth-Guided Training Decomposition:为了进一步加强协作,我们提出了一种深度引导训练分解方法,根据基于像素和体积的高斯的不同空间属性来分解我们的训练目标。

整体损失函数如下:

396fd04e02a123e713e4275b899a9b0c.png

实验结果

dd2745a7d72f95ee05efbb81ef29a39e.png 4948b3c270ee3825f459f6dadf57d84d.png 55e228107fb5878567c25d40d52ff894.png b681011dfe1389eb09f39d43811a17bc.png 932a3a7a1b13367182f526388437ad95.png 3d2d35a35b824be4497b77286dbd8cf8.png

结论

本文提出了Omni-Scene,这是一种具有Omni高斯表示的方法,可以在基于像素和体积的高斯表示中达到最佳效果,用于自我中心稀疏视图场景重建。采用鼓励体像素协作的设计,我们仅从周围的单帧观测中实现了高保真场景重建。大量实验表明,与以前的方法相比,我们在自我中心重建方面具有优势。此外,我们将2D扩散模型集成到我们的框架中,这使得多模态3D场景生成具有多种应用。

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。

f2b5f795c695154366e2bb48c370e3d7.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

35d5f98a917ecda78fb61f9ddea192fd.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

19f2a1be94fbcc6f7bfad0a8d310b753.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

6551a3a20dddbb361153e57a1cbf30ae.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值