主打一个大场景！VastGaussian：首个基于3DGS的大场景实时渲染

最新推荐文章于 2025-10-08 21:15:14 发布

转载最新推荐文章于 2025-10-08 21:15:14 发布 · 1.8k 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247591603&idx=2&sn=a5124c1069f892148bad5d12d2f5ea49&chksm=cf5a9e691a1d8cfc717e347ab4901a927a539509ce7c5b034a3a5c86ede1810f50098c0616f6&scene=126&sessionid=0

文章标签：

#3d

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『三维重建』技术交流群

论文作者 | 自动驾驶Daily

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

现有的基于NeRF的大场景重建方法在视觉质量和渲染速度方面往往存在局限性。虽然最近的3D高斯飞溅在小规模和以对象为中心的场景中效果良好，但由于视频内存有限、优化时间长和明显的外观变化，将其扩展到大型场景会带来挑战。为了应对这些挑战，我们提出了VastGaussian，这是第一种基于3D Gaussian Splatting的大场景高质量重建和实时渲染方法。我们提出了一种渐进分割策略，将大场景划分为多个单元，其中训练相机和点云根据空域感知可见性标准进行适当分布。经过并行优化后，这些单元被合并为一个完整的场景。我们还将解耦的外观建模引入到优化过程中，以减少渲染图像中的外观变化。我们的方法优于现有的基于NeRF的方法，并在多个大型场景数据集上实现了最先进的结果，实现了快速优化和高保真实时渲染。

项目主页：https://vastgaussian.github.io/

总结来说，VastGaussian的主要贡献如下：

我们提出了VastGaussian，这是第一种基于三维高斯散射的大型场景高保真重建和实时渲染方法；
我们提出了一种渐进式数据划分策略，将训练视图和点云分配给不同的单元，从而实现并行优化和无缝合并；
我们在优化过程中引入了解耦的外观建模，从而抑制了由于外观变化而产生的浮动。该模块可以在优化后丢弃，以获得实时渲染速度。

详解VastGaussian

3DGS在小型和以对象为中心的场景中运行良好，但由于视频内存限制、优化时间长和外观变化，在放大到大型环境时会遇到困难。在本文中，我们将3DGS扩展到大型场景，以实现实时和高质量的渲染。我们建议将大型场景划分为多个单元，这些单元在单独优化后合并。

渐进式数据划分

我们将一个大场景划分为多个单元，并将点云P和视图V的一部分分配给这些单元进行优化。这些单元中的每一个都包含较少数量的3D高斯，这更适合于以较低的存储容量进行优化，并且在并行优化时需要较少的训练时间。我们的渐进式数据划分策略的管道如图3所示。

基于相机位置的区域划分。如图3（a）所示，我们根据地平面上投影的摄像机位置对场景进行划分，并使每个单元包含相似数量的训练视图，以确保在相同迭代次数下，不同单元之间的平衡优化。在不失一般性的情况下，假设m×n个单元的网格非常适合所讨论的场景，我们首先将地平面沿着一个轴划分为m个部分，每个部分包含大约|V|/m个视图。然后，这些部分中的每一个沿着另一个轴进一步细分为n个片段，每个片段包含大约|V|/（m×n）个视图。尽管这里我们以基于网格的划分为例，但我们的数据划分策略也适用于其他基于地理的划分方法，如扇区化和四叉树。

基于位置的数据选择。如图3（b）所示，在扩展其边界后，我们将训练视图V和点云P的一部分分配给每个单元。

基于可见性的摄影机选择。我们发现，在前一步中选择的相机不足以进行高保真度重建，这可能导致较差的细节或漂浮伪影。为了解决这个问题，我们建议基于可见性标准添加更多相关的相机，如图3（c）所示。

请注意，计算Ω的不同方法会导致不同的相机选择。如图3（e）所示，自然和天真的解决方案是基于分布在物体表面上的3D点。它们被投影到Ii上，形成一个区域的凸包。这种计算与空域无关，因为它只考虑了表面。因此，在本次计算中，由于第j个单元的能见度较低，一些相关摄像机未被选择，这导致空域受到监督，无法抑制空中漂浮物。

我们引入了空域感知能见度计算，如图3（f）所示。具体而言，轴对齐的边界框由第j个单元中的点云形成，其高度被选择为最高点和地平面之间的距离。我们将边界框投影到Ii上，并获得凸包区域。这种空域感知解决方案考虑了所有可见空间，确保在给定适当的可见性阈值的情况下，选择对该单元的优化有重大贡献的视图，并为空域提供足够的监督。

基于覆盖范围的点选择。在将更多相关的相机添加到第j个单元的相机集Vj之后，我们将Vj中的所有视图所覆盖的点添加到Pj中，如图3（d）所示。新选择的点可以为该单元的优化提供更好的初始化。如图6所示，如图3（g）所示，第j个单元外的一些对象可以被Vj中的一些视图捕获，并且由于深度模糊，在没有适当初始化的情况下，在错误的位置生成新的3D高斯图来拟合这些对象。然而，通过添加这些对象点进行初始化，可以很容易地创建位于正确位置的新的3D高斯图，以适应这些训练视图，而不是在第j个单元中产生浮动。注意，在单元的优化之后去除在单元外部生成的3D高斯。

解耦外观建模

在不均匀照明下拍摄的图像中存在明显的外观变化，3DGS倾向于产生浮动来补偿不同视图中的这些变化，如图2（a–d）所示。

为了解决这个问题，一些基于NeRF的方法将外观嵌入与逐像素射线行进中的基于点的特征连接起来，并将它们输入到辐射MLP中以获得最终颜色。这不适用于3DGS，因为3DGS的渲染是在没有MLP的情况下通过逐帧光栅化执行的。相反，我们在优化过程中引入了解耦的外观建模，这会产生一个变换图来调整渲染图像，以适应训练图像中的外观变化，如图4所示。

在我们的实验中，简单的逐像素乘法在我们使用的数据集上效果良好。外观嵌入和CNN与3D高斯一起使用损失函数进行优化：

无缝合并

在独立优化所有单元后，我们需要将它们合并以获得完整的场景。对于每个优化的单元，我们在边界扩展之前删除原始区域之外的3D高斯（图3（a））。否则，它们可能会在其他细胞中变成漂浮物。然后，我们合并这些不重叠细胞的3D高斯。合并后的场景在外观和几何结构上是无缝的，没有明显的边界伪影，因为在我们的数据分区中，一些训练视图在相邻单元之间是常见的。因此，不需要像Block NeRF那样进行进一步的外观调整。合并后的场景中所包含的3D高斯总数可以大大超过整个训练场景的总数，从而提高重建质量。

实验

实验设置

在我们的主要实验中，我们用8个cell来评估我们的模型。能见度阈值为25%。所渲染的图像在与长度为64的外观嵌入连接之前被下采样32次。每个单元都针对60000次迭代进行了优化。致密化开始于第1000次迭代，结束于第30000次迭代，间隔为200次迭代。其他设置与3DGS的设置相同。外观嵌入和CNN都使用0.001的学习率。我们执行曼哈顿世界对齐，使世界坐标的y轴垂直于地平面。我们在增刊中描述了CNN架构。数据集。实验在五个大型场景上进行：Mill-19数据集的碎石和建筑，以及UrbanScene3D数据集的校园、住宅和科学艺术。每个场景包含数千个高分辨率图像。我们对图像进行了4次下采样，以进行训练和验证，遵循之前的方法进行公平比较。

评价指标。我们使用三个定量指标来评估渲染质量：SSIM、PSNR和基于AlexNet的LPIPS。上述光度变化使评估变得困难，因为不确定应复制哪种光度条件。为了解决这个问题，我们遵循Mip-NeRF 360在评估所有方法的度量之前对渲染图像执行颜色校正，这解决了每个图像的最小二乘问题，以使渲染图像与其对应的地面实况之间的RGB值对齐。我们还报告了1080p分辨率下的渲染速度、平均训练时间和视频内存消耗。

结果分析

重建质量。在表1中，我们报告了每个场景中的平均SSIM、PSNR和LPIPS指标。我们的VastGaussian在所有SSIM和LPIPS指标上都显著优于比较方法，这表明它重建了更丰富的细节，在感知方面具有更好的渲染效果。就PSNR而言，VastGaussian获得了更好或可比的结果。我们还在图5中显示了视觉比较。基于NeRF的方法缺乏细节并产生模糊的结果。修改后的3DGS具有更清晰的渲染，但会产生的floater。我们的方法实现了干净和视觉愉悦的渲染。请注意，由于某些测试图像中明显的过度曝光或曝光不足，VastGaussian表现出略低的PSNR值，但产生了明显更好的视觉质量，有时甚至比基本事实更清晰，如图5第3行的示例。VastGaussian的高质量部分归功于其大量的3D高斯。以校园场景为例，Modified 3DGS中的3D高斯数为890万，而VastGaussian的数字为2740万。

效率和内存。在表2中，我们报告了训练时间、优化过程中的视频内存消耗和渲染速度。Mega NeRF、Switch NeRF和VastGaussian在8个特斯拉V100 GPU上进行训练，而GridNeRF和Modified 3DGS在单个V100 GPU中进行训练，因为它们不执行场景分解。渲染速度在单个RTX 3090 GPU上进行测试。我们的VastGaussian使用照片逼真渲染重建场景所需的时间要短得多。与改进的3DGS相比，VastGausian大大降低了单个GPU上的视频内存消耗。由于VastGaussian在合并场景中的3D高斯数比Modified 3DGS多，因此其渲染速度略慢于Modified 3DDS，但仍比基于NeRF的方法快得多，实现了1080p分辨率的实时渲染。

消融实验

我们对Sci-Ar场景进行消融研究，以评估VastGaussian的不同方面。

数据划分。如图6和表3所示，基于可见性的相机选择（VisCam）和基于覆盖范围的点选择（CovPoint）都可以提高视觉质量。如果没有它们中的每一个或两个，可以在单元格的空域中创建漂浮物，以适应单元格外观察区域的视图。如图7所示，基于可见性的相机选择可以确保相邻单元之间的相机更常见，这消除了未实现时外观跳跃的明显边界伪影。

空域感知能见度计算。如表3第4行和图8所示，基于空域感知能见度计算选择的摄像机为单元的优化提供了更多的监督，因此在以空域不可知的方式计算能见度时不会产生漂浮物。

解耦的外观造型。如图2和表3的第5行所示，我们的解耦外观建模减少了渲染图像中的外观变化。因此，3D高斯人可以从具有外观变化的训练图像中学习一致的几何形状和颜色，而不是创建漂浮物来补偿这些变化。另请参阅补充资料中的视频。

不同数量的cell。如表4所示，当并行优化细胞时，更多的细胞在VastGaussian中重建更好的细节，导致更好的SSIM和LPIPS值，以及更短的训练时间。然而，当单元数量达到16或更大时，质量改善变得微不足道，并且PSNR略微降低，因为在与相距很远的单元的渲染图像中可能存在逐渐的亮度变化。

结论和限制

在本文中，我们提出了VastGaussian，这是第一种高质量的大规模场景重建和实时渲染方法。引入的渐进式数据分割策略允许独立的单元优化和无缝合并，从而获得具有足够3D高斯的完整场景。我们的解耦外观建模将训练图像中的外观变化解耦，并实现不同视图之间的一致渲染。该模块可以在优化后丢弃，以获得更快的渲染速度。虽然我们的VastGaussian可以应用于任何形状的空间划分，但我们没有提供应考虑场景布局、单元数量和训练相机分布的最佳划分解决方案。此外，当场景巨大时，会有很多3D高斯，这可能需要很大的存储空间，并显著降低渲染速度。

参考

[1] VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近2700人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦2D/3D目标检测、语义分割、车道线检测、目标跟踪、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM与高精地图、深度估计、轨迹预测、NeRF、Gaussian Splatting、规划控制、模型部署落地、cuda加速、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）