点击下方卡片,关注“自动驾驶之心”公众号
评估协议的关键局限性
三维计算机视觉领域高度关注于捕捉场景的几何和视觉外观,以及理解其内容。近年来,三维高斯溅射(3D Gaussian Splatting, 3DGS)因其独特的能力——能够以一种紧凑的形式联合编码场景的几何、外观和理解属性(该形式可以有效地从二维带位姿的图像中优化得到)——已成为最理想的三维表示方法。此外,视觉-语言推理代表了三维场景理解最具前景的方向,因为它将场景的视觉和几何属性与我们用来定义、描述和推理概念的语言连接起来。因此,本文专注于利用 3DGS 进行视觉-语言场景理解。
语言高斯溅射(Language Gaussian Splatting, LGS)最相关的方法可分为三类。前两类方法首先使用视觉-语言基础模型(例如 CLIP)从所有训练图像中提取二维特征。第一类随后执行基于梯度的单场景优化,将特征向量分配给每个三维高斯基元(primitive),并优化它们,使其渲染结果与对应的二维特征图对齐。第二类同样在单场景基础上操作,但采用免优化的方法。与迭代优化不同,这些方法通过加权特征聚合方案直接将二维特征提升(lift)到三维基元上。最后,我们考虑泛化方法。迄今为止,只有单一方法在 2000 个室内场景上进行过训练,该方法学习直接为每个三维高斯基元预测一个视觉-语言特征向量。尽管训练期间需要二维视觉-语言特征,但在推理时仅依赖三维高斯,无需额外准备二维特征图。此外,所有特征都在单次前向传递中生成。
虽然这些方法在将视觉-语言推理与 3DGS 集成方面取得了重要进展,但它们的评估协议仍然存在几个关键局限性:
大多数方法仅在少量选定的场景上进行评估。因此,此类评估存在很高的风险,即得出针对特定场景而非可泛化的结论。此外,缺乏标准化基准进一步限制了系统性和可比较的评估。
其次,大多数方法在靠近训练视点的位置进行评估。因此,无法保证结果能很好地推广到新视点。
最后,大多数评估是在二维而非直接在三维空间中进行的。
然而,三维场景理解根本上关注的是在三维空间中的性能,这无法完全从二维投影中推断。因此,我们提出了 SceneSplat-Bench,这是一个用于 3DGS 视觉-语言场景理解的评估基准,包含跨越 325 个独特语义类别的 1060 个场景。它针对场景的每个片段在三维空间中评估性能,我们使用它来评估来自上述三类的代表性方法(见表 1)。

在评估的方法中,可泛化的三维场景理解范式展现出最强的潜力。它消除了推理时对大量单场景计算的需求,并实现了对三维场景的单次前向传递处理。此外,这种方法使得无需针对特定任务或场景重新训练即可应用三维基础模型进行场景理解。这一概念与二维计算机视觉中已确立的实践一致,即广泛采用预训练的基础模型。专为 3DGS 定制的基础模型已经在关键领域出现,包括重建、场景理解和生成。最后,基准测试结果展示了泛化方法的最先进性能,突显了其利用数据先验并提取有意义的视觉-语言特征的能力——这有效地缓解了弱监督固有的噪声问题。

为了促进可泛化 3DGS 场景理解的发展,我们引入了 SceneSplat-49K。这是一个精心筛选的 3DGS 数据集,包含从多个来源收集的多样化室内和室外场景。现有的大规模 3DGS 数据集主要聚焦于单个物体,而场景级别的数据集在规模上仍然有限。据我们所知,SceneSplat-49K 代表了最广泛的、包含复杂且高质量完整场景级别 3DGS 重建的开源数据集。该数据集的准备大约耗费了 891 个 GPU 天和大量的人力参与。此外,我们证明了在 SceneSplat-49K 的更大子集上训练可泛化的 3DGS 场景理解方法能够带来性能的提升,并在基准测试上取得了最先进的结果。
主要贡献:
我们引入了 SceneSplat-Bench,这是首个用于在 3DGS 领域系统评估视觉-语言场景理解方法的基准测试。
我们发布了 SceneSplat-49K,这是一个高质量的、精心筛选的 3DGS 数据集,包含 49K -个室内外场景。
我们扩大了对一个可泛化视觉语言模型 (VLM) 在基于 3DGS 的室内外场景理解上的训练和评估规模,并提供了新的见解。
数据集
我们推出 SceneSplat-49K,这是一个大规模的三维高斯溅射(3DGS)数据集,包含约 49K 个原始场景和 46K 个经过筛选的 3DGS 场景。该数据集汇集了多个成熟来源的数据,包括 SceneSplat-7K、DL3DV-10K、HoliCity、Aria 合成环境(Aria Synthetic Environments)和我们自己收集的众包数据。这个多样化的数据集包含室内和室外环境,涵盖从房间、公寓到街道的各种场景。为了支持 3DGS 场景理解模型的训练,其中 12K 个场景进一步丰富了使用最先进的视觉语言模型提取的逐基元视觉语言嵌入(per-primitive vision-language embeddings)。引入的数据集的综合统计信息见表 2。

图 2 展示了我们的 SceneSplat-49K 数据集评估指标的分布情况。在约 49K 个 3DGS 场景中,平均的光度质量(photometric quality)为 27.8 dB PSNR 和 0.90 SSIM,感知性 LPIPS 值为 0.20——这些都属于高质量渲染的范畴。重要的是,几何重建同样可靠,平均深度 L1 误差为 0.061 米。每场景高斯数(Gaussian number)的分布跨越了两个数量级,表明了数据集的复杂性。场景占地面积也显示出明显的多样性:室内环境主要集中在 25 平方米到 250 平方米之间,而室外场景则延伸超过一平方公里,呈现长尾分布。空间范围上的这种多样性,加上高质量的外观和几何重建,奠定了该数据集适用于训练可泛化的 3DGS 场景理解模型的基础。

数据收集与处理
为确保高质量的 3DGS 场景,我们在整个优化流程中实施了多项质量控制措施。从训练视图开始,我们选择至少包含 400 帧的场景,以确保充足的多视角覆盖。当有深度信息可用时,我们在融合点云位置初始化高斯模型,并应用深度监督以最大化几何质量。我们使用 gsplat 进行 3DGS 优化。我们使用拉普拉斯方差(variance of the Laplacian)作为清晰度指标过滤模糊帧。为了有效压缩 3DGS 场景,我们采用马尔可夫链蒙特卡洛(Markov Chain Monte Carlo)策略,并添加不透明度(opacity)和尺度(scale)正则化。优化完成后,数据集支持在将其用作模型训练输入之前,根据 PSNR 和深度质量过滤 3DGS 场景。下面我们介绍每个数据源的处理过程。 SceneSplat-7K:包含 7,916 个源自 ScanNet、ScanNet++、Replica、Hypersim、3RScan、ARKitScenes 和 Matterport3D 的精选室内 3DGS 场景。我们进一步丰富了其中 6,000 多个场景的视觉语言嵌入,以支持开放词汇的场景查询。
Aria 合成环境 (ASE):这是一个大规模的程序化生成多房间室内场景的合成数据集,每个场景都填充了来自数字资产库的 3D 物体模型。我们选取了其中的前 25K 个场景子集。对于我们的 3DGS 优化,我们对鱼眼图像和深度帧进行去畸变(undistort),并应用去晕影掩膜(devignetting mask)进行亮度校正。传感器深度被融合并转换以生成用于 3DGS 初始化的点云。
DL3DV-10K 数据集:覆盖 65 个日常环境,包含室内和室外地点。它包含 10,510 个由移动设备和无人机捕获的高质量视频,以及稀疏的 COLMAP 重建结果。对于 3DGS 训练,我们均匀采样每 10 个视图用于新视角评估,其余视图用于训练。
HoliCity:这是一个城市尺度的 3D 数据集,包含 6,300 个精确对齐到伦敦市中心 CAD 模型(覆盖超过 20 平方公里)的真实世界全景图,提供深度帧和语义标签。我们使用通过均匀采样航向角(yaw)间隔 45 度生成的每个全景图的八个透视图来优化 3DGS。
众包数据 (Crowdsourced Data):为了丰富我们的数据集,我们从各种来源(包括 Polycam 和 Sketchfab)收集了高质量的 3DGS 场景。我们还向社区分发了调查问卷以收集数据。
视觉语言嵌入收集
视觉语言嵌入是从用于优化 3DGS 的帧中提取的。与现有将 3D 基元与视觉语言模型中的文本嵌入对齐的预训练方法不同,我们将每个高斯模型直接在图像嵌入空间(image-embedding space)中对齐,从而保留更丰富的潜在语义。这种方法避免了文本描述中固有的信息损失。
我们遵循 SceneSplat 中的融合策略,采用一种动态加权机制(dynamic weighting mechanism),自适应地结合三种不同的特征:来自整个帧的全局上下文(global context)、包含背景的局部特征(local features with background)以及不包含背景的掩膜特征(masked features without background)。该机制根据每个片段的上下文关系自动平衡贡献——对于集成对象(例如与显示器一起的键盘)强调包含背景的特征,对于孤立对象强调对象特定的特征。这种自适应方法提供了比固定加权策略更细致的语义理解。
基准测试
我们将基准测试定义如下。一个场景由一组 个高斯基元(Gaussian primitives)表示,记为 ,其中每个 编码了其位置、协方差、颜色和不透明度。对于每个基元,我们计算一个语言嵌入向量 ,该向量可以通过单场景处理或通过训练好的编码器推理获得。用户提供一组自由形式的文本查询 。一个冻结的文本编码器 (例如 CLIP)将每个查询映射到一个嵌入向量 。每个高斯根据与其自身嵌入最相似的查询被标记:
这个标签场将每个基元分配给最相关的查询。
基准测试设置
评估协议(Evaluation Protocols)。 我们在 SceneSplat-Bench 基准测试上评估了来自 3 个类别的 9 种方法。我们在 3D 空间中报告两个关键指标:前景平均交并比(foreground mean Intersection over Union, f-mIoU) 和 前景平均准确率(foreground mean accuracy, f-mAcc)。这两个指标解决了对象大小不平衡的问题,并减少了与 2D 评估相比的视角依赖性。我们通过首先将语言场转换为统一格式 来统一评估流程,然后计算其与查询文本嵌入的相似度,并选择相似度最高的配对。使用 K 近邻(K-nearest neighbors)从高斯溅射点(Gaussian splats)到真实标签(ground truth)位置进行预测投票。对于室内场景,我们排除地板、墙壁和天花板类别作为背景;对于室外场景,我们排除天空类别。所有运行时测量均在 NVIDIA RTX A6000 GPU 上获得,除了 FMGS,其训练需要 50-80 GB 的 GPU 显存,因此其运行时在 NVIDIA H200 GPU 上测量。
基准测试数据集(Benchmark Dataset)。 我们使用 ScanNet(包含 20 和 200 个类别)、ScanNet++(100 个类别)和 Matterport3D(21 个类别)来评估方法在室内场景上的性能。查询涵盖了广泛的物体粒度——从小物件(如鼠标)到较大物体(如床),反映了方法在不同尺度理解上的能力。使用 HoliCity(4 个类别)评估方法在室外场景的性能,强调在复杂周围环境下的大型结构。所有方法在四个基准测试中各自随机采样的 10 个场景子集上报告性能结果。对于表现出高效率的方法,我们在完整的验证集上进行了全面评估。
基线方法(Baseline Methods)。 我们根据方法的优化范式和泛化到新场景的能力进行分类: (i) 单场景优化方法(Per-Scene Optimization-based Methods):为高斯基元分配可学习的属性,并通过反向传播优化它们。然而,使用 alpha 合成(alpha compositing)渲染额外的特征在计算上是昂贵的,并且需要针对每个场景进行优化。 (ii) 免单场景优化方法(Per-Scene Optimization-Free Methods):使用无需训练的方法,将 2D 特征作为 2D 表示的加权和提升(lift)到 3D 空间,仅需要单次前向渲染通道。 (iii) 泛化方法(Generalizable Method)SceneSplat:训练一个前馈式(feed-forward)的 3DGS 编码器,学习预测与图像嵌入对齐的表示。我们基于我们的数据集扩展了其训练。SceneSplat(Pseudo Label) 表示用于其视觉语言预训练的视觉语言模型(VLM)嵌入。我们参考补充材料了解运行每个基线的详细信息。
关键见解
我们在 SceneSplat-Bench 基准测试上对所有选定方法进行的主要实验结果,室内场景见表 3 和表 4,室外场景见表 6。相应方法的运行时统计数据见表 1。代表泛化范式的 SceneSplat 在性能和效率方面都是明显的赢家(定性示例见图 3)。有趣的是,在 75% 的实验中,它甚至超过了用于其预训练的伪标签(SceneSplat(Pseudo Label))。这一结果突显了其通过利用大规模数据先验并学习预测有意义的视觉语言特征来泛化的能力,有效缓解了弱监督固有的噪声问题。如图 4 所示,使用增强的 NeRFView 工具进行的文本查询结果可视化进一步证明了泛化方法优于其他方法。此外,与其他需要大量特征提取的方法不同,泛化方法在推理时仅需要 3DGS 作为输入,并在单次前向传递中预测每个基元的视觉语言特征。



在单场景方法中,免优化方法在分割准确率(见表 3、4 和 6)和运行时效率(见表 1)方面都明显优于优化方法。这可能是因为优化方法的目标函数通常被设计为在训练视角上表现尽可能好,而这对于新视角可能并不理想。考虑到这一点,以及泛化方法的强大性能,我们得出结论:对于 3DGS 中有效的视觉语言推理,单场景优化并非必要。然而,在优化组和免优化组内部,没有任何一种方法能在所有数据集上持续领先,表明性能仍然对数据集特定特性敏感。
可靠基准测试的一个关键要求是拥有足够多的场景和具有适当挑战性的评估设置。如表 3、4 和 6 所示,当评估范围从少量(10 个)场景扩展到完整验证集时,各种方法的性能表现出明显的变化,这突显了基准测试规模在评估性能方面的重要性。此外,表 3 表明当任务复杂度从 20 个语义类别增加到 200 个类别时,准确率明显下降,强调需要具有挑战性的基准测试来揭示竞争方法的局限性。

表 5 展示了我们的扩展研究(scaling study),它提供了两个关键启示: 训练数据扩展一致提升室内基准测试性能:将训练集从 280 个场景扩展到 3503 个场景,将 ScanNet++ 的 f-mIoU 从 0.168 提升到 0.284,将 ScanNet200 的 f-mIoU 从 0.108 提升到 0.165。当模型在三个室内数据集上联合训练时,其性能优于仅在 Matterport3D 上训练的模型,也观察到类似的效果。
室内模型可迁移到室外场景,但特定领域数据仍是关键:从未见过室外数据的最大室内模型在 HoliCity 上达到了 0.263 mIoU,比 280 场景基线提高了 7.4%。这表明大规模室内训练诱导出的表征能够部分泛化跨越室内-室外的边界,零样本示例如图 5 所示。然而,仅在 HoliCity 上训练的模型表现仍然更优(0.288 mIoU),表明最终的跨域能力仍然需要室外监督。这些发现强调了我们的大规模室内-室外 3DGS 数据集作为强大训练资源的价值。

总结一下
这项工作引入了首个用于基于 3DGS 的场景理解方法的综合基准测试,以及一个包含多样化室内外场景的大规模 3DGS 数据集。我们的评估表明,泛化方法持续优于单场景优化方法,确立了通过预训练模型实现可扩展场景理解的新范式。尽管做出了这些贡献,局限性仍然存在。我们的数据集规模虽然可观,但仍有扩展空间。室外基准测试受限于有限的语义类别,并且并非所有 3DGS 场景都包含预计算的语言视觉嵌入。我们将这些问题留作未来的重要研究方向,并希望我们的基准测试和数据集能够推动基于语言的 3DGS 场景理解研究的进展。
参考
[1] SceneSplat++: A Large Dataset and Comprehensive Benchmark for Language Gaussian Splatting