基于谱域的点云学习参数高效微调

点云学习谱域微调方法

最新推荐文章于 2025-11-25 01:27:38 发布

原创最新推荐文章于 2025-11-25 01:27:38 发布 · 621 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

原文论文：Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning

作者：D. Liang, T. Feng, X. Zhou, Y. Zhang, Z. Zou, and X. Bai, “,

论文地址：https://arxiv.org/abs/2410.08114

代码地址：https://github.com/jerryfeng2003/PointGST

一、引言

点云学习作为计算机视觉领域的一个重要研究方向，广泛应用于自动驾驶、3D重建和机器人等领域。然而，点云数据本身具有稀疏、无序和不规则等特点，使得其分析与处理面临诸多挑战。近年来，利用预训练模型在点云学习中取得了显著进展，这些预训练模型通过在大规模数据集上进行训练，能够为下游任务提供强大的特征提取能力，从而提高模型的性能。

尽管预训练模型在提高点云学习效果方面具有明显优势，传统的全量微调（FFT）方法仍然面临着计算开销大、存储需求高等问题，尤其是在模型规模不断扩大的情况下。为了解决这些问题，研究者提出了参数高效微调（PEFT）方法，通过仅微调少量参数来适应下游任务，从而显著减少计算和存储开销。然而，现有的PEFT方法在点云学习中仍然存在一些不足，特别是在空间域微调过程中，难以有效区分点云的细粒度结构，且未能充分利用下游任务的特定内在信息。

为此，本文提出了一种全新的PEFT方法——PointGST，通过在谱域进行微调，克服了传统方法的不足。与传统的空间域微调不同，PointGST利用图傅里叶变换（GFT）将点云数据从空间域转换到谱域，从而有效去除了特征之间的混淆，并引入了下游任务的内在信息，使微调更加高效且具针对性。实验结果表明，PointGST在多个具有挑战性的点云数据集上取得了突破性的表现，不仅减少了可训练参数的数量，而且超越了现有的最先进方法，展示了其在高效点云学习中的巨大潜力。

二、模型整体结构

PointGST模型的核心思想是通过谱域微调技术实现点云学习任务的高效参数调整。在传统的点云学习方法中，尤其是使用预训练模型时，通常采用全量微调（FFT）策略，即更新所有预训练模型的参数。这种方法虽然能够提升下游任务的性能，但也带来了巨大的计算开销和存储需求。为了解决这一问题，PointGST提出了一种全新的方法，通过引入轻量级的Point Cloud Spectral Adapter（PCSA）模块，在谱域对模型进行高效微调，从而在保持较低计算和存储开销的同时，显著提高性能。

整体框架
PointGST的整体框架主要由以下几个部分组成：

冻结的预训练模型：在微调过程中，PointGST保持预训练模型的参数不变，这样避免了大规模参数更新带来的计算和存储负担。
Point Cloud Spectral Adapter（PCSA）：这是PointGST中的核心模块，负责将输入的点云特征从空间域转换到谱域，并进行任务特定的微调。PCSA通过图傅里叶变换（GFT）将点云特征从空间域映射到谱域，从而有效地去除特征之间的混淆。
谱域微调：在谱域，特征之间的关系能够通过正交基函数（即拉普拉斯矩阵的特征向量）解耦，减少了训练过程中的混淆，且能够利用下游任务的几何结构信息来进行更加有针对性的调整。

Point Cloud Spectral Adapter（PCSA）模块
PCSA模块是PointGST的关键创新之一。该模块的作用是将点云的空间特征通过图傅里叶变换映射到谱域，并通过微调调整谱域中的特征系数，以适应下游任务的需求。

具体来说，PCSA的流程如下：

低维度图信号表示：首先，PCSA通过下投影操作将点云的空间特征映射到低维度的图信号。这个低维度的图信号代表了点云的局部结构，并为后续的谱域操作做准备。
谱基生成：利用点云的几何结构，PCSA构建了全局图和局部子图，并对这些图执行拉普拉斯矩阵的特征值分解，得到谱基。通过这些谱基，点云特征可以被有效地映射到谱域。
图傅里叶变换（GFT）：接下来，PCSA使用图傅里叶变换将低维度的图信号从空间域转换为谱域。这一过程有效解耦了特征之间的相关性，并使得点云的几何结构信息得以保留。
微调：在谱域中，PCSA使用共享的线性层进行微调，通过调整谱域特征系数，使其更加适应特定的下游任务。
逆图傅里叶变换（iGFT）：最后，微调后的谱域特征通过逆图傅里叶变换（iGFT）转换回空间域，与原始的预训练模型输出进行结合。

三、模型核心方法

PCSA模块的工作流程

PCSA模块的工作流程可以分为以下几个步骤：

步骤1：低维度图信号表示
首先，PCSA通过一个下投影操作将点云特征从高维空间映射到一个低维的图信号表示。假设输入的点云特征为 $T_{in} \in R^{n\cdot C}$ ，其中是n点云中的点数，C 是每个点的特征维度。下投影操作通过一个训练得到的矩阵 $W_d \in \mathbb{R}^{r \times C}$ 将输入特征映射到低维度的图信号 $T_s \in \mathbb{R}^{n \times r}$ ，其中 r 是低维空间的维度，且 $r \ll C$ 。

公式如下： $T_s = T_{in} W_d^T$

这里， $T_{S}$ 是低维度的图信号，作为后续谱域处理的输入。
步骤2：构建谱基（谱域基）
在该步骤中，根据点云的几何结构，构建图的拉普拉斯矩阵 $L_G$ 和局部子图的拉普拉斯矩阵 $L_L$ 。这些拉普拉斯矩阵表示了点云的几何关系，并在图傅里叶变换中起着重要作用。

对于全局图，拉普拉斯矩阵 $L_G$ 为： $L_G = D_G - W_G$

其中 $D_G$ 是度矩阵， $W_G$ 是点云点之间的加权相似度矩阵。

对于局部子图，类似地，拉普拉斯矩阵 $L_L$ 是根据局部邻域构建的。
步骤3：图傅里叶变换（Graph Fourier Transform, GFT）
通过图傅里叶变换（GFT），PCSA将图信号 $T_s$ 从空间域转换到谱域。图傅里叶变换的关键是通过谱基（即拉普拉斯矩阵的特征向量）对信号进行转换。

设 $U_G \in \mathbb{R}^{n \times n}$ 为图的特征向量矩阵（谱基），则图傅里叶变换可以表示为：
$T_f = GFT(T_s) = U_G^T T_s$
这里， $T_f$ 是谱域中的点云特征。
步骤4：谱域微调
在谱域中，PCSA通过一个共享的线性层对变换后的谱域特征进行微调，以适应特定的下游任务。该共享线性层的作用是通过调整谱域特征的系数，增强模型对任务特定几何结构的适应性。微调后的谱域特征通过激活函数进行非线性映射：
$T_f' = T_f + \text{act}(\text{Linear}(T_f))$
这里， $\text{act}$ 表示激活函数（如Swish激活函数）， $\text{Linear}$ 是一个线性层。
步骤5：逆图傅里叶变换（Inverse Graph Fourier Transform, iGFT）
经过微调后的谱域特征 $T_f'$ 将通过逆图傅里叶变换（iGFT）转换回空间域。逆图傅里叶变换的公式为：
$T_{out} = iGFT(T_f') = U_G T_f'$
该步骤将微调后的谱域特征恢复到空间域，从而与原始的预训练模型输出结合，完成最终的任务。

四、实验

首先全面比较了点云任务中常用的微调策略，包括全量微调（FFT）、IDPT、Point-PEFT 和 DAPT，评估了它们在训练参数数量和性能方面的表现。表格 Table 1 显示了详细的实验结果。可以得出以下结论：

PointGST在训练参数数量和性能之间有效平衡。
PointGST 能有效泛化到不同的预训练模型。

该表展示了与最先进方法（SOTA）在 ScanObjectNN 和 ModelNet40 数据集上的比较结果。这些方法分为两类：仅监督学习和自监督表示学习。可以得出以下结论：

自监督表示学习方法通常优于仅监督学习的方法
在以 PointGPT-L 为基线时，PointGST 超越了所有之前的方法，建立了新的最先进水平，同时仅需要 2.4M 的可训练参数。

五、总结

本文提出了一种新型的参数高效微调（PEFT）方法——PointGST，专门针对点云学习任务中的模型微调问题。通过将微调过程从空间域转移到谱域，PointGST不仅显著降低了可训练参数的数量，还提升了微调过程的效率和性能。核心创新在于引入了点云谱适配器（PCSA）模块，将点云特征从空间域转换到谱域，利用谱基有效解耦特征混淆，并融入下游任务的几何信息，从而实现更高效、更有针对性的微调。

实验结果显示，PointGST在多个具有挑战性的点云数据集上均取得了显著的突破性成果。尤其是在ScanObjectNN和ModelNet40数据集上，PointGST的性能超越了现有的最先进方法，且只需0.67%的可训练参数。相比于传统的全量微调方法，PointGST在保持高效性能的同时，极大地减少了计算和存储开销，展现了其在低资源场景下的应用潜力。