1. 论文基本信息
发布于: arXiv 2024.11
2. 创新点
TTA (Test-Time Adaptation) 介绍了一种全新的 测试时适应(TTA) 方法,专门用于 3D点云分类。 在没有源数据的情况下,TTA 通常会采用无监督损失(例如基于目标分布的损失函数)来对模型进行微调,进而减少领域间的分布偏移。
- 新颖性:提出了首个完全TTA方法,专门用于3D点云分类,结合了测试时的采样变异和权重平均。
- 鲁棒性:该方法无需访问任何源数据,通过完全的TTA适应,表现出比现有方法(如TENT)更高的效率,即使在非常小的批量大小下也能有效适应。
- 最先进的性能:通过在三个数据集上的广泛实验,涵盖了不同类型的噪声和三个不同的点云分类骨干网络,证明了该方法在大多数测试场景下具有最先进的性能。
3. 背景
- 3D点云分类的挑战:深度神经网络近年来在3D点云分类任务中取得了显著的成功(例如使用Lidar、RGB-D摄像头等传感器),但这些方法通常依赖于一个假设:测试数据与训练数据来自相同的分布。然而,在现实世界中,这种假设往往不成立,测试数据可能由于环境变化、传感器不同、光照条件差等因素发生变化,导致分布偏移。
- 分布偏移:当测试数据的分布与训练数据的分布不同(即分布偏移)时,传统的训练方法会导致性能下降。这在3D点云数据中尤为显著,因为3D数据的采集受到多个因素的影响,如传感器类型、环境条件等。
- 解决方案需求:由于现实世界的应用场景中无法为每种可能的分布偏移训练一个模型,因此需要开发一种 实时适应 方法,使得模型能够在测试阶段无需源数据进行自我调整,从而应对测试数据的分布变化。
3.1.1. 测试时适应(TTA)概念
- TTA定义:测试时适应(Test-Time Adaptation, TTA)是指在测试阶段使用未标注的测试数据对源模型进行调整,以应对数据分布偏移。与传统方法不同,TTA只在测试时进行适应,不依赖任何源数据。
- 与测试时训练(TTT)的对比:测试时训练(TENT)方法在源数据的预训练阶段就加入适应策略,而TTA则只在测试阶段进行适应,不涉及任何源数据。
3.1.2. 已有的TTA方法
- 2D图像领域的TTA方法:包括通过预测熵最小化来正则化分类器,或更新批归一化统计量以使测试数据与训练数据对齐。
- 3D点云分类领域的TTA方法:
-
- MATE:实际上是 测试时训练(TTT) 方法,因为它在源数据的预训练阶段就使用了掩码自编码器进行适应。
- BFTT3D:使用源数据原型进行适应,但它依赖源数据,因此不符合TTA的定义。
4. Pipeline
这部分介绍了作者提出的 Test-Time Adaptation (TTA) 方法,专门用于 3D点云分类,重点是提高模型对 分布偏移(distribution shifts)的鲁棒性。作者的方法采用了 双重策略,具体包括以下两部分内容:
- 采样变异(Sampling Variation):
-
- 为了应对分布变化,方法通过创建 输入数据的多样化视角 来减少分布偏移。具体地,通过在 测试时生成不同的采样变异,使得模型能够从多个角度适应目标数据的变化。
- 这种多样性产生了多种输入数据的变体,这样可以增加模型在面对不同数据分布时的鲁棒性和适应性。
- 权重平均(Weight Averaging):
-
- 通过将采样变异的结果与 权重平均技术 相结合,进一步增强模型的适应性。权重平均技术可以通过结合来自不同采样变异的模型权重,避免模型陷入 尖锐的最小值(sharp minima)(局部最优),使得优化过程更加平滑并提高了模型对目标数据的泛化能力。
- 权重平均的目标是引导模型远离易于过拟合的局部最小值,而是趋向于更加 稳定的平坦区域,从而提高模型的鲁棒性。
4.1. TENT
TENT(Test-Time Entropy Minimization)算法是一种用于 测试时自适应(TTA)的方法,旨在通过最小化模型输出的熵来增强模型的适应能力。具体而言,TENT算法在测试阶段通过更新 批归一化(Batch Normalization)层的参数 γ和 β 来减少模型预测的 不确定性,从而使得模型能够在未标注的目标数据上做出更稳定、更自信的预测。
4.1.1. 主要步骤:
- 熵最小化:TENT通过最小化模型输出的 预测熵 H(fθ(Pv)) 来促使模型在测试阶段做出更明确的预测。
- 更新参数:通过调整 批归一化 层的参数 γ 和 β,使得模型在不同的测试变体(通过采样变异产生)上能够自适应,减少分布偏移带来的影响。
总之,TENT算法通过自适应调整模型的归一化参数,来优化模型在目标领域的表现,特别是在没有源数据的情况下有效应对目标数据的分布变化。
5. 💎实验成果展示
5.1. 实验设置
方法:Point-MAE、PointNet和DGCNN. 大多关注基于 Transformer 和非基于 Transformer 的网络
Dataset: ModelNet40-C, ShapeNet-C, and ScanObjectNN-C.(这些数据集涵盖了一系列现实世界的挑战,包括不同程度的损坏和噪声,使我们能够证明我们的方法在不同和复杂的场景中的有效性。)