DITR：DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation

原创已于 2025-07-30 16:33:19 修改 · 999 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #点云分割

于 2025-07-30 16:25:10 首次发布

点云专栏收录该内容

7 篇文章

订阅专栏

DINO in the Room: 利用2D基础模型提升3D分割性能

论文：https://arxiv.org/pdf/2503.18944

代码（待开源）：GitHub - VisualComputingInstitute/DITR: CVPRW 2025 (T4V)

简介：提出了一种创新方法DITR，通过2D视觉基础模型（VFMs）增强3D语义分割

1. 引言：研究背景与动机

1.1 3D语义分割的挑战与2D视觉基础模型的机遇

当前，3D语义分割作为计算机视觉领域的一个重要分支，旨在为3D点云中的每个点分配语义类别标签，对于自动驾驶、机器人和虚拟现实等应用至关重要。然而，该领域面临着显著的挑战。目前最先进的3D语义分割模型主要依赖于专门设计的3D骨干网络，这些网络通常需要从零开始进行训练 1。这种训练范式与2D图像分割领域形成了鲜明对比，后者普遍采用通过强大的视觉基础模型（VFMs），例如DINOv2 1，预训练权重初始化的2D骨干网络。

3D视觉模型发展中的一个核心制约因素是数据稀缺性。现有的3D数据集，如ScanNet、nuScenes、SemanticKITTI等 1，其规模比其2D对应物（例如LAION-400M、LAION-5B等大规模图像-文本对数据集）小几个数量级 1。这种数据规模的巨大差异直接导致了3D领域难以涌现像2D领域那样通用且强大的基础模型，因为从零开始训练大型3D模型所需的庞大数据量难以满足。

与此形成对比的是，2D视觉基础模型展现出强大的能力。这些VFMs通常在海量图像数据集上以自监督方式进行训练，从而具备了卓越的泛化能力和丰富的语义特征提取能力。值得注意的是，尽管3D数据本身相对稀缺，但3D点云数据在采集过程中往往伴随着对应的2D图像。例如，室内场景通常通过RGB-D相机捕获视频序列并重建为彩色点云，数据中自然包含2D图像及其与点云的对应关系。在室外场景中，3D街景通常由搭载LiDAR扫描仪的车辆捕获，这些车辆也常配备相机，提供相应的2D图像 1。这种固有的数据对齐提供了一个天然的桥梁。如果3D原生预训练因数据稀缺而受到限制，但2D VFMs在语义知识方面非常丰富，并且2D图像能够与3D点云精确对齐，那么将2D知识迁移到3D领域便成为一个逻辑上可行且极具前景的解决方案。DITR（DINO in the Room）方法的核心动机正是利用这种固有的数据配对以及2D VFMs的成熟性，来弥补3D基础模型发展滞后的不足。

1.2 现有2D-3D融合方法的局限性与DITR的创新点

尽管2D-3D融合的研究已经持续进行并取得了一定成功 1，但现有工作尚未充分利用语义丰富的VFMs的强大能力 1。先前的融合方法往往专注于特定领域（如室内或室外），并且在特征聚合时没有受益于大规模预训练的通用2D模型。这可能是因为它们使用的2D特征要么是从较小数据集上从头训练的，要么是为特定任务微调的，这限制了它们的泛化能力。

DITR挑战了当前3D方法主要关注3D数据的趋势，提出了一种简单而有效的方法：提取2D基础模型特征，将其投影到3D空间，并注入到3D点云分割模型中 1。DITR的“简单性”体现在其使用冻结的VFM特征。这意味着DINOv2的权重在DITR的训练过程中不会被更新，从而显著降低了计算开销，并直接利用了VFM已有的泛化能力，避免了复杂的联合训练或VFM本身的微调。这与现有融合方法存在根本性差异。DITR利用的是预先存在的、通用、语义丰富的特征，而传统方法可能依赖于任务特定、泛化能力较弱的2D特征。因此，DITR的创新在于识别并有效利用了2D VFMs的基础模型特性，将简单的特征注入或蒸馏转化为强大的知识迁移机制，从而提供了一个更鲁棒、更具扩展性的解决方案。

1.3 本文的核心贡献概述

DITR提出了两种核心策略，旨在通过利用2D视觉基础模型来增强3D语义分割性能：

(a) 注入（Injection）方法： 该方法在训练和推理过程中，提取2D特征并将其投影到3D空间，然后直接注入到3D点云分割模型中 1。这种策略在多个室内外数据集上显著提高了分割性能，并取得了新的最先进（SOTA）结果，且仅使用未标记的图像 1。
(b) 蒸馏（Distillation）方法（D-DITR）： 针对推理时图像可能不可用的场景，D-DITR将2D VFM的知识蒸馏到3D骨干网络中作为预训练任务 1。这种方法使得3D模型能够捕获2D基础模型的语义丰富性，而无需任何标记数据，并超越了现有无监督预训练方法的性能 1。

拥有注入和蒸馏两种互补的方法，意味着DITR可以适应不同的实际应用场景。如果图像始终可用且计算资源充足，可以优先使用注入法以获得最佳性能。如果图像不可用或计算受限，则可以采用蒸馏法进行鲁棒的无图像推理。这种双重策略不仅仅是展示两种利用VFMs的方式，更是提供了一个全面的解决方案，它考虑并解决了现实世界部署中的挑战，使得该方法具有高度的实用性和多功能性。

2. DITR方法的核心原理

本节将深入探讨DITR两种核心变体——注入和蒸馏——的工作原理，并分析其背后的设计考量。

2.1 注入（Injection）方法：直接利用2D特征增强3D模型

DITR的注入方法的核心思想是在训练和推理过程中直接利用2D图像特征来提升3D语义分割性能 1。它通过将2D视觉基础模型（如冻结的DINOv2 ViT）提取的特征，投影到3D空间，并注入到3D点云分割模型中来实现 1。

该方法的一个关键设计是使用“冻结的DINOv2模型” 1。这意味着DINOv2的权重在DITR的训练过程中不会被更新。这种设计选择具有多重优势：首先，它规避了通过DINOv2进行反向传播的需要，从而显著节省了计算资源，包括GPU内存和训练时间。其次，它确保了DINOv2从海量2D数据集中学习到的高度通用化特征得以保留，不会因3D任务的特定微调而稀释其泛化能力。与需要微调2D模型的方法相比，如果DINOv2需要微调，计算成本将大幅增加，并且可能导致对3D任务的过拟合，从而失去其通用能力。因此，“冻结”DINOv2是一个深思熟虑且明智的工程选择，它支撑了DITR的效率和有效的知识迁移。

2.2 蒸馏（Distillation）方法：知识迁移实现无图像推理

蒸馏方法（D-DITR）旨在解决推理时图像不可用的限制，通过在预训练阶段将2D基础模型的知识转移到一个纯3D模型中 1。其工作机制是通过蒸馏目标，教导一个3D学生模型输出与DINOv2教师模型提取的特征对齐的特征 1。

在预训练完成后，经过蒸馏的学生模型可以简单地进行3D分割的微调，而无需对应的图像，从而在推理时不会造成任何开销 1。这种蒸馏预训练的一个显著优势在于其数据效率。它可以使用未标记的数据进行，并且由于目标特征空间（即DINOv2的特征空间）保持一致，因此对数据集特定的语义标签集不敏感，这对于多数据集预训练具有显著优势 1。

传统的3D预训练通常依赖于3D数据上的自监督任务或带标签的3D数据。然而，3D数据稀缺且3D标注成本高昂，这限制了预训练的规模和多样性。D-DITR方法通过使用DINOv2特征作为蒸馏目标，有效地解决了这一问题。DINOv2特征在3D视角下是语义丰富且无需标签的，因为它们来源于易于获取的2D图像。这意味着3D模型在预训练期间无需任何3D语义标签即可学习到丰富的语义表示，这极大地节省了成本并提高了可扩展性。此外，由于蒸馏目标是通用的，因此可以无缝地结合多个未标注的数据集进行预训练，这与依赖数据集特定语义标签的传统方法不同。D-DITR有效地将3D数据稀缺的问题转化为利用大量2D-3D配对数据进行语义预训练的机会，代表了3D表示学习领域向更具可扩展性和鲁棒性方向的范式转变。

3. DITR方法的详细实现

本节将详细阐述DITR注入和蒸馏两种方法的具体实现机制，包括数据处理、特征映射、模型融合以及损失函数设计。

3.1 注入（Injection）方法的实现细节

DITR的注入方法通过将2D图像特征直接整合到3D骨干网络中，以提升3D语义分割的性能。

3.1.1 2D到3D特征映射机制

该过程首先处理输入数据，包括一个包含N个点的3D点云 P={pi∈R3}i=1N，以及K个经过校准的相机集合 {(Ik,Kk,Tk)}k=1K 1。

2D特征提取是该机制的关键一步。每个2D图像 Ik 被输入到一个冻结的DINOv2 ViT模型中，以获取图像块级别的嵌入特征 Fk∈RPH×PW×D2D。其中，P 是图像块大小，D2D 是特征维度 1。

随后进行3D点到2D像素的投影。对于每个3D点 pi，它首先通过世界到相机坐标的外部参数 Tk 变换到第k个相机空间 qik=Tk(pi,1)，然后乘以相机内部参数 Kk 得到齐次像素坐标 (xik,yik,zik)=Kkqik。最终的像素坐标由 (uik,vik)=(xik/zik,yik/zik) 给出 1。

可见性判断与特征分配是确保特征有效性的重要环节。如果点 pi 在第k个图像中可见（即其像素坐标 (uik,vik) 在图像范围内且深度 zik 为正，满足视锥体剔除条件），则确定对应的图像块索引 (u^ik,v^ik)=(⌊Puik⌋,⌊Pvik⌋)，并将2D特征图 Fk 中对应位置的特征分配给 pi 1。在多视图处理方面，如果点

pi 在多个图像中可见，DITR会随机选择其中一个图像来提供特征。如果点在任何图像中都不可见，则分配一个全零特征向量 1。

在经验优化方面，研究发现直接从冻结的2D特征图中分配特征比双线性插值效果更好，并且从多个2D特征图中聚合特征的效果不如随机选择 1。这些发现表明DINOv2的图像块特征具有极强的语义丰富性和鲁棒性，以至于更简单、更直接的迁移机制反而效果更好。双线性插值可能会平滑特征，模糊语义边界，或引入相邻图像块的伪影，而直接分配则保留了DINOv2原始的、清晰的图像块级语义识别。聚合多视图特征（例如，平均）可能会平均掉细粒度细节，或者在视图轻微未对齐或显示物体不同方面时引入冲突的语义信息，而随机选择本质上是为该点选择一个“最佳”或“最自信”视图的特征，避免了稀释。这些实际选择并非随意，它们反映了对如何最佳利用VFM特征特定属性的理解，优先考虑保真度而非复杂的平均或插值。此外，为防止注入被遮挡点的特征，会比较投影点的深度与RGB-D传感器原始深度值，并排除深度差异超过小误差范围的点。同时，为确保图像特征始终分配给距离相似的点，会过滤掉距离小于1米或大于4米的点 1。

3.1.2 3D骨干网络中的特征融合策略

DITR使用Point Transformer V3 (PTv3) 1 作为其3D骨干网络，该网络采用U-Net式的编码器-解码器架构，在多个空间分辨率级别

l∈{1,...,L} 上处理体素化的点云 1。

在特征融合之前，首先构建2D特征层次。为体素化后的点云 P′ 收集点级2D特征 X2D。然后，通过重复应用最大池化操作，为每个级别 l 生成特征 Xl2D，以匹配3D解码器的空间结构 1。

特征注入发生在3D骨干网络的解码器中。2D特征 Xl2D 被额外注入到跳跃连接中，与来自编码器的特征 XlE 和来自前一个解码器级别的上采样特征 †Xl+1D 进行组合 1。融合通过元素级加法实现：

flD(†Xl+1D)+flE(XlE)+fl2D(Xl2D)，其中 fl 是线性投影，后接批归一化 1 和GELU激活函数 1。最终，最后一个解码器块的输出

X1D 产生每个点的特征，这些特征随后通过一个线性分割头生成类别逻辑 1。

消融研究表明，将特征注入所有解码器块能带来最强的性能 1。U-Net的解码器块通常会从较粗的层次细化特征，并通过跳跃连接与编码器中对应尺度的细粒度特征结合，从而实现多尺度信息流。2D VFMs在捕获丰富的语义和纹理信息方面表现出色，其粒度通常比原始3D点云更细，尤其是在稀疏区域。在多个解码器级别注入意味着VFM的语义线索在不同的抽象层次上都可用。早期解码器层（靠近瓶颈）受益于较粗的语义上下文，而后期层（靠近输出）则受益于细粒度的语义细节。这种多尺度语义增强有助于3D骨干网络在语义意义上解释几何模式（由编码器学习），从而在2D外观和3D几何之间建立强大的协同效应。例如，一个几何上模糊的点簇可能通过注入的2D特征得到语义上的澄清，使其能够被识别为“椅子腿”而非“随机的杆子”。消融研究证实了“所有解码器块”的注入策略效果最佳，进一步印证了这种多尺度、多阶段的语义注入比单点注入更为有效。

3.1.3 DINOv2作为2D基础模型的应用

DINOv2 ViT 1 被选作视觉基础模型（VFM），因为它代表了当前最强大的VFM 1。在模型尺寸选择上，对于室外场景，使用更大的DINOv2变体（ViT-g）能带来更大的性能提升。对于室内数据集，ViT-L和ViT-g变体表现相当，因此为优化资源效率选择了ViT-L 1。

图像骨干网络消融研究显示，更大的DINOv2模型性能更好，呈现一致的趋势。其他强大的VFM，如AIMv2 1 和SigLIP 2 1，也持续提升了性能 1。这些观察表明，核心收益来源于“基础模型”的特性——大规模预训练、强大的泛化能力和丰富的语义特征。随着2D VFMs在规模和能力上的持续进步（例如，更大的模型、更多样化的预训练数据），DITR的性能有望进一步提升，而无需改变其基本架构。这表明该方法并非“DINOv2特有”，而是“VFM无关”的。任何足够强大的2D VFM都可以作为即插即用的替代品，确保该方法随着2D基础模型领域的发展而保持相关性。

在图像处理细节方面，ScanNet图像被调整为420×560像素，S3DIS图像调整为518×518像素。nuScenes图像调整为378×672像素，SemanticKITTI为378×1246，Waymo为308×672。这些调整在保持长宽比的同时，确保了与DINOv2训练时相似的图像tokens数量 1。

3.2 蒸馏（Distillation）方法的实现细节

D-DITR蒸馏方法旨在通过在预训练阶段将2D基础模型的知识转移到一个纯3D模型中，从而实现无图像推理。

3.2.1 预训练阶段的2D到3D对齐过程

在预训练阶段，D-DITR首先将3D点与2D图像块进行匹配，并为每个点分配DINOv2特征 X2D 1。这个过程与DITR的注入方法中的“2D到3D映射”部分类似。具体而言，对于一个包含N个点的3D点云

P={pi∈R3}i=1N 和K个校准相机 {(Ik,Kk,Tk)}k=1K 的集合，每个2D图像 Ik 被输入到一个冻结的DINOv2 ViT模型中，从而获得图像块级别的嵌入 Fk∈RPH×PW×D2D 1。对于每个3D点

pi，它被转换到第k个相机空间 qik=Tk(pi,1)，然后乘以相机内参 Kk 得到齐次像素坐标 (xik,yik,zik)=Kkqik 1。像素坐标由

(uik,vik)=(xik/zik,yik/zik) 给出 1。如果点

pi 在第k个图像中可见，则确定对应的图像块索引 (u^ik,v^ik)=(⌊Puik⌋,⌊Pvik⌋)，并将2D特征图 Fk 中对应的特征分配给 pi 1。如果一个点在多个图像中可见，则随机选择其中一个图像来提供特征。如果点在任何图像中都不可见，则分配一个全零特征向量 1。

3.2.2 蒸馏损失函数的使用

在预训练过程中，只将点云输入到3D骨干网络中。与预测分割logits不同，网络的最终线性层用于回归DINOv2特征 1。对于每个点

pi，预测的特征表示为 xipred，对应的DINOv2目标特征表示为 xi2D 1。通过最小化以下余弦相似度损失函数来鼓励3D骨干网络复制DINOv2的语义丰富表示，该损失函数对所有可见点进行平均 1：

Lcosine=1−∣∣xipred∣∣⋅∣∣xi2D∣∣xipred⋅xi2D

其中 V 是至少在一个相机中可见的点的索引集合 1。这种蒸馏预训练鼓励3D骨干网络复制DINOv2的语义丰富表示，这些表示能够捕获细粒度细节，而不受传统语义分割标注的粗粒度限制 1。

3.2.3 无图像推理的实现

在预训练完成后，线性回归头被丢弃，并将其替换为标准的分割头 1。然后，预训练的模型可以在任何3D分割数据集上进行微调，而无需图像特征 1。最终的模型仅基于3D数据进行预测，但受益于从强大的2D模型中转移的语义知识，因此在推理时不会产生任何额外开销 1。

3.2.4 多数据集训练

D-DITR的2D到3D蒸馏方法的一个关键优势是它不需要任何标注数据，只需要对齐的2D和3D输入 1。这使得可以在单个蒸馏目标下组合多个未标注的点云数据集，其中每个点只需回归到其对应的DINOv2特征 1。为了更稳定的训练，D-DITR在多数据集训练时为每个数据集维护单独的批归一化层 1。在室内多数据集蒸馏案例中，模型在ScanNet 1 和Structured3D 1 上进行联合预训练。在室外多数据集蒸馏案例中，模型使用nuScenes、SemanticKITTI和Waymo进行联合预训练 1。

4. 实验结果

4.1 定量结果

DITR在室内和室外3D语义分割基准测试上均取得了最先进的结果。

4.1.1 注入（Injection）方法的性能

DITR在所有评估数据集上均取得了最先进的语义分割结果，显著优于所有先前的2D-3D融合方法，即使这些方法通常仅专注于室内或室外场景。

表1：室内语义分割结果 (mIoU)

方法	ScanNet Val	ScanNet Test	ScanNet200 Val	ScanNet200 Test	S3DIS Area5
ST	74.3	73.7			72.0
PTv1	70.6		27.8		70.4
PointNeXt	71.5	71.2			70.5
MinkUNet	72.2	73.6	25.3	25.0	65.4
OctFormer	75.7	76.6	32.6	32.6
Swin3D	76.4				72.5
PTv2	75.4	74.2	30.2		71.6
PTv3	77.5	77.9	35.2	37.8	73.4
reproduced	76.8		35.4		72.1
DVA	71.0				67.2
BPNet	73.9	74.9
DMF-Net	75.6	75.2
VMVF	76.4	74.6			68.6
ODIN	77.8	74.4	36.8	40.5
DITR	80.5	79.7	44.9	41.2	74.1

在ScanNet200隐藏测试集上，DITR取得了+7.1 mIoU的显著提升 1，这表明图像特征注入对于具有更多语义类别的更复杂分割任务特别有益。在室外数据集中，nuScenes数据集的验证集上取得了+4.3 mIoU的显著提升 1。这可能是由于nuScenes点云比其他数据集更稀疏，因此从密集的图像特征中获得了更强的增益。SemanticKITTI数据集由于仅提供单个前置摄像头，DITR的改进相对温和，但仍表现出竞争力 1。

表2：室外语义分割结果 (mIoU)

方法	nuScenes Test	nuScenes Val	Sem.KITTI Val	Sem.KITTI Test	Waymo Val
MinkUNet	73.3		63.8		65.9
SPVNAS	77.4		64.7	66.4
Cylinder3D	77.2	76.1	64.3	67.8
SphereFormer	78.4	81.9	67.8	74.8	69.9
PTv2	80.2	82.6	70.3	72.6	70.6
PTv3	80.4	82.7	70.8	74.2	71.3
reproduced	79.9		68.3		71.5
4D-Former	78.9	80.4	66.3
2DPASS	79.4	80.8	72.9	69.3
MSeg3D	81.1	80.0	66.7		69.6
LCPS	78.9	80.5	67.5	62.8
DITR	85.1	84.2	69.0	74.4	73.3

4.1.2 蒸馏（Distillation）方法的性能

D-DITR在蒸馏预训练方面探索了两种设置：(1) 在单个数据集上预训练并在同一数据集上微调，以展示VFM特征作为蒸馏目标的有效性；(2) 在多个数据集上联合预训练。

表3：室内蒸馏结果 (mIoU)

方法	ScanNet	ScanNet200	S3DIS
PTv3 reproduced	76.8	35.4	72.1
D-DITR	78.6	37.2
D-DITR (multi-dataset)	79.2	37.7	75.0

表4：室外蒸馏结果 (mIoU)

方法	nuScenes	Sem.KITTI	Waymo
PTv3 reproduced	79.9	68.3	71.5
D-DITR	80.9		71.6
D-DITR (multi-dataset)	80.7	69.8	72.1

单数据集蒸馏在PTv3基线上取得了持续改进，证明了DINOv2蒸馏的有效性 1。多数据集蒸馏进一步提升了结果。在室内数据集中，蒸馏预训练显著提升了分割性能，在ScanNet上增益+2.4mIoU，ScanNet200上+2.3 mIoU，S3DIS上+2.9 mIoU，均优于最先进的3D基线 1。S3DIS上的改进尤为显著，表明蒸馏特征可以泛化到未见过的数据集 1。对于室外数据集，D-DITR也比基线有持续改进。特别是在SemanticKITTI上，蒸馏方法取得了显著增益，甚至超越了注入的DITR模型 1。这表明即使图像不可用或计算受限，D-DITR也能在预训练期间利用这些强大的2D特征来增强分割。

表5：ScanNet有限重建基准测试 (mIoU)

% Data	Scratch	CSC	MSC	PPT	D-DITR
1%	26.0	28.9	29.2	31.3	34.1
5%	47.8	49.8	50.7	52.2	56.6
10%	56.7	59.4	61.0	62.8	65.2
20%	62.9	64.6	64.9	66.4	68.3
100%	72.2	73.8	75.3	75.8	76.2

在ScanNet有限重建基准测试中，D-DITR在所有数据可用性设置下均优于所有先前的无监督预训练方法 1。当微调数据量较小时，这种差距甚至更大 1。这表明D-DITR蒸馏方法可以应用于其他常用的3D骨干网络，并提供比原始3D数据更强的监督信号。

4.2 定性结果

4.2.1 D-DITR蒸馏特征的语义丰富性（通过PCA特征可视化）

D-DITR通过蒸馏DINOv2的特征，使得3D模型能够捕获到丰富的语义信息，即使在推理时没有图像输入 1。研究通过主成分分析（PCA）将D-DITR模型生成的点特征进行可视化，并展示了前三个主成分作为RGB颜色 1。这种可视化方法提供了一种定性的方式来观察蒸馏预训练过程中捕获的语义信息。

可视化结果（如图3、图4、图5、图6、图7、图8所示）表明，属于同一语义类别的点呈现相似的颜色，这反映了它们在PCA前三个主轴上的对齐 1。例如，在室内场景（ScanNet数据集，如图4和图5所示），桌子、椅子、书籍和墙壁等物体在整个场景中始终映射到不同的颜色 1。这表明D-DITR模型在没有语义标签的情况下，成功地学习了3D场景中物体的语义表示。更进一步的观察发现，像椅子和桌子这样的物体在特征空间中被分割成更精细的子部分，甚至超越了数据集标注的粒度 1。这种细粒度的语义特征表示显著增强了模型在语义分割微调方面的性能，这在定量结果中也得到了证实。在SemanticKITTI（图6）和nuScenes（图7、图8）等室外数据集上的可视化也展示了类似的语义丰富性，表明D-DITR蒸馏出的特征具有良好的泛化能力，适用于不同类型的3D场景 1。这些定性结果有力地证明了D-DITR通过蒸馏DINOv2的知识，使得3D骨干网络能够学习到具有高度语义丰富性的点特征，这对于后续的3D语义分割任务至关重要。

4.2.2 DITR如何利用2D视觉线索纠正3D骨干网络的错误分类（通过语义分割预测对比）

DITR通过将2D基础模型（DINOv2）的特征注入到3D骨干网络中，显著提高了语义分割性能，尤其是在纠正3D骨干网络（如PTv3）的错误分类方面表现出色 1。研究通过对比DITR和PTv3的预测结果，重点展示了DITR如何受益于DINOv2特征。

在纠正基于几何相似性的错误方面，DITR展现出优异能力。例如，在图9的ScanNet场景中，PTv3将“推车”错误地分类为“货架” 1。这种错误很可能是因为推车的轮子在3D点云中几乎不可见，导致其结构与货架相似。相比之下，DITR通过整合来自2D图像的视觉线索，准确地识别了推车 1。这表明2D图像提供了3D点云中可能缺失或模糊的细节信息，帮助模型进行更精确的分类。在图10的另一个ScanNet场景中，PTv3将“橱柜”错误地分类为“墙壁” 1。这是因为橱柜在3D点云中表现为与墙壁齐平的平面，并且颜色相似，仅凭点云很难将其识别为橱柜。然而，在对应的图像视图中，该区域清晰地可识别为橱柜，DITR因此能够正确分类 1。这突出显示了利用强大的图像特征如何补充和增强几何特征，使模型能够区分结构相似的类别。

在处理稀疏LiDAR数据中的挑战方面，DITR同样表现出色。在图11的nuScenes数据集中，PTv3将穿过街道的行人错误地分类为汽车，忽略了人行道上的几名行人，并将汽车前方的公交车误认为是建筑物 1。这些错误发生在距离自车较远的区域，LiDAR数据稀疏，物体仅由少量点表示。相比之下，DITR利用相应图像中的上下文信息进行消歧，准确地预测了这些实例，即使物体仅由少量点表示 1。这表明2D视觉线索在LiDAR数据稀疏的区域提供了关键的补充信息，帮助模型克服3D数据的局限性。

通过这些定性对比，研究清晰地展示了DITR如何有效地利用2D基础模型的语义丰富性，通过特征注入的方式，纠正了纯3D骨干网络在处理几何相似性、数据稀疏性等挑战时出现的错误分类，从而显著提升了3D语义分割的准确性。

4.3 消融研究

4.3.1 注入位置消融研究

该研究旨在确定将图像特征注入3D骨干网络的最佳位置。默认情况下，DITR将DINOv2特征注入所有解码器块，这在所有数据集上都取得了最强的性能 1。

表8：不同注入点的比较 (mIoU)

注入点	ScanNet200	nuScenes
None (i.e. PTv3 )	35.2	79.9
Before segmentation head	37.6	82.5
Before first encoder layer	40.1	82.3
Decoder (last block)	40.1	82.7
Decoder (all blocks) (i.e. DITR)	41.2	83.1
Class tokens only	37.4	79.4

研究结果表明，所有注入配置都比基线模型有所改进 1。将DINOv2特征注入所有解码器块能带来最显著的性能提升 1。直接在分割头之前注入特征（后期融合）在ScanNet200上带来的增益明显较小 1。由于主要的计算开销来自VFM特征的计算，注入位置和频率对效率的影响可以忽略不计 1。因此，研究建议将2D特征添加到所有解码器层。

4.3.2 图像骨干网络消融研究

该研究旨在评估用于提取2D特征的图像骨干网络对模型性能的影响。所有实验都使用冻结的图像骨干网络权重 1。

表9：使用不同图像骨干网络的注入性能 (mIoU)

预训练	模型	ScanNet200	nuScenes
None		35.2	80.4
IN21k	VIT-L	38.2	80.2
AIMv2	VIT-L	39.1	82.8
SigLIP 2	ViT-g	38.1	83.6
DINOv2	ViT-S	38.2	82.8
DINOv2	ViT-B	40.7	83.0
DINOv2	VIT-L	41.2	83.1
DINOv2	ViT-g	40.8	84.2

研究结果表明，在DINOv2预训练的ViT模型中，模型越大，性能越好，呈现出一致的趋势 1。与其他预训练方法相比，DINOv2表现出更强的性能。例如，IN21k预训练的ViT-L模型在室内场景中性能略有提升，但在室外nuScenes数据集上性能下降 1。而AIMv2和SigLIP 2等其他基础模型也持续提升了室内外场景的性能 1。这些结果表明，强预训练（如基础模型中使用的）是实现不同环境中持续增益的关键。同时，这也表明研究的结论并非DINOv2所特有，未来更强大的VFM也可以作为框架的替代品。

4.4 性能分析

4.4.1 可见点和不可见点上的性能表现

为了更好地理解性能提升的来源，研究比较了DITR和基线模型在可见点和不可见点上的性能。

表6：可见点和不可见点上的性能 (mIoU)

方法	ScanNet200 Visible	ScanNet200 Invisible	Semantic KITTI Visible	Semantic KITTI Invisible
PTv3	35.2	34.5	68.5	68.1
DITR	39.7	41.5	71.6	68.3

DITR在可见点上的分割性能有显著提升，这在ScanNet200和SemanticKITTI数据集上都有体现 1。即使在不可见点上，DITR的性能也优于PTv3基线模型 1。ScanNet200数据集上显著的性能提升表明，DITR模型能够从2D特征中捕获全局上下文信息，从而有助于不可见区域的分割 1。

4.4.2 不同图像数量和图像选择策略对推理性能的影响

研究分析了在推理时改变图像数量和图像选择策略对模型性能的影响。

表7：推理时图像数量和图像选择策略 (mIoU)

图像选择	#Images	ScanNet200 mIoU	ScanNet200 % Vis.	nuScenes mIoU	nuScenes % Vis.
eq.dist.	0	32.8	0.0	37.5	0.0
eq.dist.	1	36.5	9.8	50.9	11.2
eq.dist.	3	38.2	24.6	40.5	72.7
eq.dist.	6	39.2	41.7	83.1	77.0
eq.dist.	10	39.9	56.7
random	6	38.6	37.0
random	10	39.2	49.5

在ScanNet200数据集上，模型在训练时使用6张图像，但在推理时看到更多图像时，性能会更好，甚至优于训练时使用10张图像的模型（当推理时使用较少图像时） 1。这表明模型对推理时图像数量的减少具有一定的鲁棒性，性能会随着训练时随机选择图像数量的增加而逐渐下降 1。然而，对于nuScenes数据集，由于模型在训练时始终接收完整的环绕视觉上下文，因此在推理时缺少帧会导致性能显著下降 1。在图像选择策略方面，ScanNet200数据集上，在推理时使用时间等距图像（temporally-equidistant images）是有效的，它能带来更高的点覆盖率，并且始终优于随机图像选择策略 1。

4.4.3 资源使用

DITR在ScanNet200上，使用ViT-L DINOv2骨干网络和10个摄像头视图时，训练时间从12小时增加到15小时（使用两块H100 GPU）。平均每场景推理延迟从41毫秒增加到76毫秒，所需GPU内存从1.4 GiB增加到5.6 GiB（使用一块H100 GPU进行推理） 1。尽管这是DITR的一个限制，但D-DITR由于架构保持不变，不存在这些推理开销 1。

5. 结论

本研究深入分析了DITR（DINO in the Room）方法，该方法通过有效利用2D视觉基础模型（VFMs）的强大能力，显著提升了3D语义分割的性能。尽管未来可能会出现3D基础模型，但当前3D数据集的稀缺性使得2D VFMs在3D场景理解中的作用不可或缺。

DITR的核心创新在于其双重策略：注入（Injection）和蒸馏（Distillation）。注入方法通过将冻结的2D VFM特征（如DINOv2）直接投影并融合到3D骨干网络的解码器跳跃连接中，实现了性能的显著提升。实验结果表明，DITR在多个室内外3D语义分割基准测试上取得了最先进的（SOTA）结果，尤其在ScanNet200和nuScenes等数据集上展现出大幅度改进。这种方法仅需使用未标记的2D图像，便能有效增强3D模型的语义理解能力，纠正纯3D模型因几何相似性或数据稀疏性导致的错误分类。

D-DITR蒸馏方法则解决了推理时图像不可用的限制。通过在预训练阶段将2D VFM的知识蒸馏到纯3D模型中，D-DITR使得3D模型能够在不依赖图像输入的情况下，获得丰富的语义表示。这种无监督的预训练范式不仅节省了昂贵的3D标注成本，还能够利用多个未标注的数据集进行联合训练，展现出卓越的可扩展性和泛化能力，甚至在某些场景下超越了注入方法。

综合而言，DITR和D-DITR的提出，证明了2D VFMs在3D任务中未被充分探索的巨大潜力。这两种方法不仅在性能上取得了突破，而且具有高度的实用性和灵活性，能够适应不同场景下的部署需求。因此，本研究强烈倡导在3D场景理解中尽可能利用2D VFMs，并期望这些发现能够鼓励更多研究人员深入探索这一方向。

附注：参考deepseek、kimi、genimi等大模型