主打一个大场景!VastGaussian:首个基于3DGS的大场景实时渲染

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心三维重建技术交流群

论文作者 | 自动驾驶Daily

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

现有的基于NeRF的大场景重建方法在视觉质量和渲染速度方面往往存在局限性。虽然最近的3D高斯飞溅在小规模和以对象为中心的场景中效果良好,但由于视频内存有限、优化时间长和明显的外观变化,将其扩展到大型场景会带来挑战。为了应对这些挑战,我们提出了VastGaussian,这是第一种基于3D Gaussian Splatting的大场景高质量重建和实时渲染方法。我们提出了一种渐进分割策略,将大场景划分为多个单元,其中训练相机和点云根据空域感知可见性标准进行适当分布。经过并行优化后,这些单元被合并为一个完整的场景。我们还将解耦的外观建模引入到优化过程中,以减少渲染图像中的外观变化。我们的方法优于现有的基于NeRF的方法,并在多个大型场景数据集上实现了最先进的结果,实现了快速优化和高保真实时渲染。

76a84188460a48d54311a1726ffb0816.png

项目主页:https://vastgaussian.github.io/

总结来说,VastGaussian的主要贡献如下:

  • 我们提出了VastGaussian,这是第一种基于三维高斯散射的大型场景高保真重建和实时渲染方法;

  • 我们提出了一种渐进式数据划分策略,将训练视图和点云分配给不同的单元,从而实现并行优化和无缝合并;

  • 我们在优化过程中引入了解耦的外观建模,从而抑制了由于外观变化而产生的浮动。该模块可以在优化后丢弃,以获得实时渲染速度。

相关工作回顾

大场景重建

在过去的几十年里,基于图像的大场景重建取得了重大进展。一些工作遵循SfM管道来估计相机姿态和稀疏点云。以下工作基于多视图立体(MVS)从SfM输出生成密集点云或三角形网格。近年来,随着NeRF成为照片真实感新视图合成的流行3D表示,人们提出了许多变体来提高质量、提高速度、扩展到动态场景等。一些方法将其扩展到大场景。Block-NeRF将一个城市划分为多个区块,并根据其位置分布训练视图。Mega NeRF使用基于网格的划分,并将图像中的每个像素分配给光线穿过的不同网格。与这些启发式划分策略不同,Switch-NeRF引入了NeRF专家的混合框架来学习场景分解。网格NeRF不执行场景分解,而是使用基于NeRF和基于网格的方法的集成。尽管这些方法的渲染质量比传统方法有了显著提高,但它们仍然缺乏细节,渲染速度较慢。最近,3D Gaussian Splatting引入了一种表现力强的显式3D表示,具有1080p分辨率的高质量实时渲染。然而,将其放大到大型场景并非易事。我们的VastGaussian是第一个通过场景划分、优化和合并的新颖设计来做到这一点的工作。

可变外观建模

在改变照明或不同相机设置(如自动曝光、自动白平衡和色调映射)的情况下,基于图像的重建中,外观变化是一个常见问题。NRW以具有对比损失的数据驱动方式训练外观编码器,该编码器以延迟明暗处理深度缓冲区作为输入,并产生图像嵌入(AE)。NeRF-W将AE连接到光线行进中基于点的特征,并将其输入到MLP中以获得最终颜色,这成为许多基于NeRF的方法的标准做法。Ha-NeRF使AE成为不同视图的全局表示,并在视图一致性丢失的情况下学习它。在我们的VastGaussian中,我们将AE与渲染图像连接起来,将它们输入CNN以获得变换图,并使用变换图调整渲染图像以适应外观变化。

详解VastGaussian

3DGS在小型和以对象为中心的场景中运行良好,但由于视频内存限制、优化时间长和外观变化,在放大到大型环境时会遇到困难。在本文中,我们将3DGS扩展到大型场景,以实现实时和高质量的渲染。我们建议将大型场景划分为多个单元,这些单元在单独优化后合并。

渐进式数据划分

我们将一个大场景划分为多个单元,并将点云P和视图V的一部分分配给这些单元进行优化。这些单元中的每一个都包含较少数量的3D高斯,这更适合于以较低的存储容量进行优化,并且在并行优化时需要较少的训练时间。我们的渐进式数据划分策略的管道如图3所示。

5f56c63fcca1dde44aa65eb7767a3874.png

基于相机位置的区域划分。如图3(a)所示,我们根据地平面上投影的摄像机位置对场景进行划分,并使每个单元包含相似数量的训练视图,以确保在相同迭代次数下,不同单元之间的平衡优化。在不失一般性的情况下,假设m×n个单元的网格非常适合所讨论的场景,我们首先将地平面沿着一个轴划分为m个部分,每个部分包含大约|V|/m个视图。然后,这些部分中的每一个沿着另一个轴进一步细分为n个片段,每个片段包含大约|V|/(m×n)个视图。尽管这里我们以基于网格的划分为例,但我们的数据划分策略也适用于其他基于地理的划分方法,如扇区化和四叉树。

基于位置的数据选择。如图3(b)所示,在扩展其边界后,我们将训练视图V和点云P的一部分分配给每个单元。

基于可见性的摄影机选择。我们发现,在前一步中选择的相机不足以进行高保真度重建,这可能导致较差的细节或漂浮伪影。为了解决这个问题,我们建议基于可见性标准添加更多相关的相机,如图3(c)所示。

请注意,计算Ω的不同方法会导致不同的相机选择。如图3(e)所示,自然和天真的解决方案是基于分布在物体表面上的3D点。它们被投影到Ii上,形成一个区域的凸包。这种计算与空域无关,因为它只考虑了表面。因此,在本次计算中,由于第j个单元的能见度较低,一些相关摄像机未被选择,这导致空域受到监督,无法抑制空中漂浮物。

我们引入了空域感知能见度计算,如图3(f)所示。具体而言,轴对齐的边界框由第j个单元中的点云形成,其高度被选择为最高点和地平面之间的距离。我们将边界框投影到Ii上,并获得凸包区域。这种空域感知解决方案考虑了所有可见空间,确保在给定适当的可见性阈值的情况下,选择对该单元的优化有重大贡献的视图,并为空域提供足够的监督。

基于覆盖范围的点选择。在将更多相关的相机添加到第j个单元的相机集Vj之后,我们将Vj中的所有视图所覆盖的点添加到Pj中,如图3(d)所示。新选择的点可以为该单元的优化提供更好的初始化。如图6所示,如图3(g)所示,第j个单元外的一些对象可以被Vj中的一些视图捕获,并且由于深度模糊,在没有适当初始化的情况下,在错误的位置生成新的3D高斯图来拟合这些对象。然而,通过添加这些对象点进行初始化,可以很容易地创建位于正确位置的新的3D高斯图,以适应这些训练视图,而不是在第j个单元中产生浮动。注意,在单元的优化之后去除在单元外部生成的3D高斯。

解耦外观建模

b0ff903a5c2159328f11843cf2d4f4c8.png

在不均匀照明下拍摄的图像中存在明显的外观变化,3DGS倾向于产生浮动来补偿不同视图中的这些变化,如图2(a–d)所示。

为了解决这个问题,一些基于NeRF的方法将外观嵌入与逐像素射线行进中的基于点的特征连接起来,并将它们输入到辐射MLP中以获得最终颜色。这不适用于3DGS,因为3DGS的渲染是在没有MLP的情况下通过逐帧光栅化执行的。相反,我们在优化过程中引入了解耦的外观建模,这会产生一个变换图来调整渲染图像,以适应训练图像中的外观变化,如图4所示。

3019c5cf8a33fe595fdf0abf552fbcf1.png

在我们的实验中,简单的逐像素乘法在我们使用的数据集上效果良好。外观嵌入和CNN与3D高斯一起使用损失函数进行优化:

e035cdea808c425974773c3b85d6a1ce.png

无缝合并

在独立优化所有单元后,我们需要将它们合并以获得完整的场景。对于每个优化的单元,我们在边界扩展之前删除原始区域之外的3D高斯(图3(a))。否则,它们可能会在其他细胞中变成漂浮物。然后,我们合并这些不重叠细胞的3D高斯。合并后的场景在外观和几何结构上是无缝的,没有明显的边界伪影,因为在我们的数据分区中,一些训练视图在相邻单元之间是常见的。因此,不需要像Block NeRF那样进行进一步的外观调整。合并后的场景中所包含的3D高斯总数可以大大超过整个训练场景的总数,从而提高重建质量。

实验

实验设置

在我们的主要实验中,我们用8个cell来评估我们的模型。能见度阈值为25%。所渲染的图像在与长度为64的外观嵌入连接之前被下采样32次。每个单元都针对60000次迭代进行了优化。致密化开始于第1000次迭代,结束于第30000次迭代,间隔为200次迭代。其他设置与3DGS的设置相同。外观嵌入和CNN都使用0.001的学习率。我们执行曼哈顿世界对齐,使世界坐标的y轴垂直于地平面。我们在增刊中描述了CNN架构。数据集。实验在五个大型场景上进行:Mill-19数据集的碎石和建筑,以及UrbanScene3D数据集的校园、住宅和科学艺术。每个场景包含数千个高分辨率图像。我们对图像进行了4次下采样,以进行训练和验证,遵循之前的方法进行公平比较。

评价指标。我们使用三个定量指标来评估渲染质量:SSIM、PSNR和基于AlexNet的LPIPS。上述光度变化使评估变得困难,因为不确定应复制哪种光度条件。为了解决这个问题,我们遵循Mip-NeRF 360在评估所有方法的度量之前对渲染图像执行颜色校正,这解决了每个图像的最小二乘问题,以使渲染图像与其对应的地面实况之间的RGB值对齐。我们还报告了1080p分辨率下的渲染速度、平均训练时间和视频内存消耗。

结果分析

重建质量。在表1中,我们报告了每个场景中的平均SSIM、PSNR和LPIPS指标。我们的VastGaussian在所有SSIM和LPIPS指标上都显著优于比较方法,这表明它重建了更丰富的细节,在感知方面具有更好的渲染效果。就PSNR而言,VastGaussian获得了更好或可比的结果。我们还在图5中显示了视觉比较。基于NeRF的方法缺乏细节并产生模糊的结果。修改后的3DGS具有更清晰的渲染,但会产生的floater。我们的方法实现了干净和视觉愉悦的渲染。请注意,由于某些测试图像中明显的过度曝光或曝光不足,VastGaussian表现出略低的PSNR值,但产生了明显更好的视觉质量,有时甚至比基本事实更清晰,如图5第3行的示例。VastGaussian的高质量部分归功于其大量的3D高斯。以校园场景为例,Modified 3DGS中的3D高斯数为890万,而VastGaussian的数字为2740万。

3de82d334bfdd25d04f2ab67cca70281.png 1c4aa0c7a9c70c32964fdb23792b565e.png

效率和内存。在表2中,我们报告了训练时间、优化过程中的视频内存消耗和渲染速度。Mega NeRF、Switch NeRF和VastGaussian在8个特斯拉V100 GPU上进行训练,而GridNeRF和Modified 3DGS在单个V100 GPU中进行训练,因为它们不执行场景分解。渲染速度在单个RTX 3090 GPU上进行测试。我们的VastGaussian使用照片逼真渲染重建场景所需的时间要短得多。与改进的3DGS相比,VastGausian大大降低了单个GPU上的视频内存消耗。由于VastGaussian在合并场景中的3D高斯数比Modified 3DGS多,因此其渲染速度略慢于Modified 3DDS,但仍比基于NeRF的方法快得多,实现了1080p分辨率的实时渲染。

460652c2ec125f0f0080a6be0015d7f1.png

消融实验

我们对Sci-Ar场景进行消融研究,以评估VastGaussian的不同方面。

数据划分。如图6和表3所示,基于可见性的相机选择(VisCam)和基于覆盖范围的点选择(CovPoint)都可以提高视觉质量。如果没有它们中的每一个或两个,可以在单元格的空域中创建漂浮物,以适应单元格外观察区域的视图。如图7所示,基于可见性的相机选择可以确保相邻单元之间的相机更常见,这消除了未实现时外观跳跃的明显边界伪影。

65db7b948de6285d3b493713bf5a9b67.png ad8fab7994a9a99b9bdf35d1c04ef0fc.png

空域感知能见度计算。如表3第4行和图8所示,基于空域感知能见度计算选择的摄像机为单元的优化提供了更多的监督,因此在以空域不可知的方式计算能见度时不会产生漂浮物。

解耦的外观造型。如图2和表3的第5行所示,我们的解耦外观建模减少了渲染图像中的外观变化。因此,3D高斯人可以从具有外观变化的训练图像中学习一致的几何形状和颜色,而不是创建漂浮物来补偿这些变化。另请参阅补充资料中的视频。

不同数量的cell。如表4所示,当并行优化细胞时,更多的细胞在VastGaussian中重建更好的细节,导致更好的SSIM和LPIPS值,以及更短的训练时间。然而,当单元数量达到16或更大时,质量改善变得微不足道,并且PSNR略微降低,因为在与相距很远的单元的渲染图像中可能存在逐渐的亮度变化。

cfad812dd52767f1824ceae482e5a9aa.png

结论和限制

在本文中,我们提出了VastGaussian,这是第一种高质量的大规模场景重建和实时渲染方法。引入的渐进式数据分割策略允许独立的单元优化和无缝合并,从而获得具有足够3D高斯的完整场景。我们的解耦外观建模将训练图像中的外观变化解耦,并实现不同视图之间的一致渲染。该模块可以在优化后丢弃,以获得更快的渲染速度。虽然我们的VastGaussian可以应用于任何形状的空间划分,但我们没有提供应考虑场景布局、单元数量和训练相机分布的最佳划分解决方案。此外,当场景巨大时,会有很多3D高斯,这可能需要很大的存储空间,并显著降低渲染速度。

参考

[1] VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

1805656a9806571a3d34cbbee6e2a8cf.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近2700人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

79b59346406c73e0ad478e2be9583e5b.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦2D/3D目标检测、语义分割、车道线检测、目标跟踪、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM与高精地图、深度估计、轨迹预测、NeRF、Gaussian Splatting、规划控制、模型部署落地、cuda加速、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

a621bc6af64fec2881a18d620c6f2838.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

1c5988e208356c5d15daff6e4ad2df1f.jpeg

<think> 首先,用户的问题是基于提供的引用内容来总结规模场景3DGS(三维高斯表示)的情况。引用内容来自多个来源,我需要整合这些信息来构建一个全面的总结。 回顾引用内容: - 引用[1]:提到X-Scene使用3DGS重建语义占据和多视角图像,以支持驾驶仿真和场景合成。 - 引用[2]:讨论了3DGS在场景重建中的优势(几何表达清晰、渲染效率高)和局限(对半透明/模糊区域建模弱、显存消耗)。 - 引用[3]:描述了空地融合和3DGS在场景建模中的应用,包括未来计划如性能优化和语义分割整合。 - 引用[4]:提供了各种3DGS相关工作的对比,包括Hierarchical 3DGS、CityGaussian V2、LODGE等,强调在自动驾驶和城市街景中的应用。 用户需求是“规模场景3DGS的总结”,所以我需要专注于规模场景的方面。 关键点总结: - **优势**:高保真几何结构、渲染效率高(如引用[1]和[2])。 - **局限**:显存消耗、对特定对象建模弱(半透明/模糊区域)(引用[2])。 - **应用场景**:自动驾驶仿真、城市街景重建、场景建模(引用[1]、[3]、[4])。 - **技术趋势**:包括分层方法(LOD)、数据分块、图结构优化等以提高可扩展性(引用[4])。 - **未来方向**:性能优化、细节增强、语义整合(引用[3])。 回答结构: - 由于用户要求“回答结构清晰,帮助用户逐步解决问题”,我应该分成几个部分:概述、核心优势、关键局限、在规模场景中的应用、技术趋势、未来展望。 - 使用中文回答。 - 对于数学表达式或公式,使用指定格式:行内用$...$,独立公式用$$...$$。但在总结中,可能涉及较少数学内容,但如果有,如引用[4]中的PSNR等指标,需要正确格式化。 - 生成相关问题:在回答末尾添加相关问题部分。 - 引用的末尾添加引用标识:例如,[^1]。 生成相关问题: - 基于总结,问题可能涉及优化方法、应用实例、性能比较等。 最终回答框架: 1. **概述**:简要介绍3DGS及其在规模场景中的重要性。 2. **核心优势**:列出优势,引用支持。 3. **关键局限**:讨论挑战,如显存问题。 4. **规模场景应用**:具体技术如分层LOD、数据分块。 5. **技术趋势**:引用[4]中的对比。 6. **未来展望**:来自引用[3]的计划。 7. **相关问题**:生成2-3个相关问题。 确保真实可靠:基于提供的引用,不添加外部知识。 </think> ### 规模场景3DGS的总结 3D高斯表示(3D Gaussian Splatting, 3DGS)是一种先进的三维重建技术,通过使用量高斯函数来模型化场景的几何结构和视觉外观。在规模场景(如城市街景、自动驾驶环境)中,3DGS因其高效渲染和高保真度而受到广泛关注,但也面临显存消耗等挑战。以下基于现有研究(主要参考引用内容)进行系统总结。 #### 1. **概述与核心优势** 3DGS通过参数化高斯分布来表示场景元素,特别适合规模场景的重建: - **高保真几何与视觉渲染**:3DGS能精确保留复杂几何结构(如建筑物、道路),并实现高保真图像渲染,适用于自动驾驶仿真和场景合成[^1][^2]。例如,在X-Scene项目中,它被用于重建语义占据和多视角图像,支持动态驾驶场景的生成。 - **渲染效率高**:相比传统方法,3DGS在渲染速度上显著优化,能实时处理规模轨迹数据(如450米街景),适合交互式应用[^2][^4]。计算上,渲染效率可描述为: $$ \text{渲染帧率} \propto \frac{1}{\text{高斯参数数量}} $$ 其中高斯参数数量直接影响性能。 - **可扩展性增强**:通过技术如分层细节(LOD)和数据分块,3DGS能适应城市级规模。例如,Hierarchical 3DGS使用分治策略,实现多GPU并行处理,提升规模场景的实时性[^4]。 #### 2. **关键局限与挑战** 尽管优势突出,3DGS在规模场景中仍有显著瓶颈: - **显存消耗**:存储数百万级高斯参数需要高显存(如≥32GB GPU),这在消费级硬件上难以实现,限制了部署范围[^2][^4]。 - **建模能力不足**:对半透明或模糊区域(如烟雾、毛发)的建模较弱,导致在复杂环境(如极端天气)中精度下降[^2][^3]。 - **计算资源需求高**:重建过程需优化算法以缩短时间。例如,规模数据集(如Waymo)的重建可能耗时数小时,需高端GPU支持[^3][^4]。 能量消耗模型可简化为:$E \propto N \cdot d$,其中$N$是高斯数量,$d$是场景复杂度。 #### 3. **在规模场景中的应用实例** 3DGS已成功应用于多种规模场景,技术演进聚焦可扩展性: - **自动驾驶与城市建模**:如CityGaussian V2结合2DGS和并行训练,处理城市街景数据(如TnT数据集),实现F1-Score 0.89的高精度[^4]。空地融合技术(如引用[3])整合航拍和地面数据,攻克场景的几何细节缺失问题。 - **动态场景重建**:Street Gaussians项目针对动态城市环境(如车辆移动),优化高斯参数以实现实时渲染[^2]。GraphGS方法通过图结构优化,支持低重叠视角和动态场景,在Waymo数据集上PSNR达29.43[^4]。 - **仿真与探索**:3DGS重建结果可直接用于驾驶仿真和自由探索,例如X-Scene生成的环境支持下游应用如真实驾驶测试[^1]。 #### 4. **技术趋势与优化方向** 为应对规模挑战,研究集中在: - **分层与并行化**:采用LOD(Level of Detail)和动态加载技术(如LODGE),在移动设备上实现257 FPS的高帧率[^4]。 - **显存与性能优化**:例如Aerial Gaussian Splatting使用数据分块和光线-高斯相交算法,减少显存占用;Normal-GS整合法线信息,降低几何误差(ScanNet ADE减少30%)[^4]。 - **智能化扩展**:结合语义分割(如引用[3]的计划),实现场景的语义分析,提升自动驾驶决策支持。 #### 5. **未来展望** 基于当前研究,3DGS在规模场景的发展方向包括: - **开源与自动化**:如引用[3]计划将项目整合至全自动脚本并开源,推动社区协作。 - **细节增强**:解决高空点云缺失问题,提升模型精度(引用[3])。 - **硬件适配**:优化算法以适配消费级GPU(如RTX 4090),降低部署门槛[^4]。 - **跨领域融合**:结合物理渲染和生成式AI,进一步拓展到工业仿真和虚拟现实。 总之,3DGS在规模场景中展现出高保真和高效的优势,但需持续优化资源消耗。随着分层方法、图优化等技术的成熟,其应用潜力将进一步释放[^1][^2][^3][^4]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值