面向样本的特征生成用于半监督少样本学习
引用:Fu S, Cao Q, Lei Y, et al. Few-shot learning with dynamic graph structure preserving[J]. IEEE Transactions on Industrial Informatics, 2023.
论文地址:下载地址
Abstract
近年来,少样本学习在物联网领域受到了越来越多的关注。少样本学习的目标是通过每个类别中的少量标签样本来区分未见过的类别。最近的转导性少样本学习研究高度依赖于在特征空间中生成的静态几何分布,这些分布是在未见过类别实例之间进行标签传播过程中产生的。然而,这些方法未能保证生成的图结构能够正确地保持数据之间的真实分布。在本文中,我们提出了一种新颖的动态图结构保持(DGSP)模型用于少样本学习。具体而言,我们通过同时考虑来自特征空间和标签空间的数据相关性来制定DGSP的目标函数,从而更新生成的图结构,这可以合理地修正不合适或错误的局部几何关系。接着,我们设计了一种高效的交替优化算法,以联合学习标签预测矩阵和最优图结构,后者可以被形式化为线性规划问题。此外,我们提出的DGSP可以在学习过程中轻松与任何骨干网络结合使用。我们在不同的基准、骨干网络和任务设置下进行了广泛的实验,结果表明,与基于转导性少样本学习的方法相比,我们的方法达到了最先进的性能。
1. Introduction
深度学习模型的巨大成功在很大程度上依赖于大量带标签的训练数据。然而,许多现实生活中的物联网应用仅提供极为有限的带标签样本,这无法满足深度学习对大规模训练的需求1。因此,在少量带标签样本上训练具有强泛化能力的分类器变得尤为重要。大量的研究工作已经投入到少样本学习中2 3 4 5。特别是,越来越多的研究集中在基于复杂 episodic 训练策略的元学习3 6。元学习设置将基础训练数据拆分成子任务,每个子任务包含少量带标签的支持样本和未标记的查询样本。其主要目的是通过模拟真实测试环境,提升深度学习模型在未见过类别任务上的泛化性能。
最近,一些研究探讨了基于转导推理的少样本分类7 8 9,这类方法利用支持集和查询集共同学习判别函数。例如,转导传播网络7通过捕捉两集合之间的高阶局部几何关系,将支持集的标签传播到查询集。LaplacianShot8利用基于特征空间的成对拉普拉斯项,使得具有相同类别原型的未标记样本具有一致的类别信息。Fu 等人9提出了自适应多尺度图,以描述每个子任务的局部几何关系。
作为少样本学习领域的典型工作之一,现有的大多数转导性少样本学习方法通过构建描述支持集和查询集之间局部几何关系的图结构来推断查询集的标签信息。然而,它们优越的分类性能高度依赖于在标签传播过程中初步构建的静态图结构,即在数据之间捕捉局部几何关系而不进行更新。构建的图结构无法准确地呈现数据之间的真实几何关系,从而导致分类性能较差。因此,在探索数据之间的几何关系时,动态地学习一个合适的图结构是必要的。
在本文中,我们提出了一种新颖的动态图结构保持(DGSP)模型用于少样本图像分类。我们提出的DGSP的主要目的是展示在现有转导性少样本学习方法中,特征空间上获得的图结构质量的重要性,并给出一种快速高效的方案,确保在任意未见过的少样本任务中图结构建模的准确性。具体而言,我们同时考虑特征空间和标签空间中的数据相关性,并通过结合基于这两个空间的拉普拉斯正则化项来制定DGSP的目标函数,从而优化构建的图结构。与仅考虑基于特征空间或标签空间构建的局部几何关系的方法相比,我们的方法能够使来自不同空间的局部几何关系一致,从而避免错误的标签传播过程。因此,在特征空间和标签空间上具有相同局部几何关系的样本可能具有相同的类别信息。然后,我们开发了一种高效的交替优化算法,联合学习标签预测矩阵和最优图结构。前者通过使用界定优化器技术8有一个闭式解,后者是一个线性规划问题。通过这种方式,我们可以学习更新后的图结构,这个图结构呈现数据之间的真实分布,同时为少样本任务学习最优标签预测矩阵,这也提高了转导推理的效率,相较于大多数基于元学习的转导调优方法。
在基于基础类的标准交叉熵训练中,我们的方法在学习过程中不对任何骨干网络进行重新训练,从而避免了复杂的 episodic 训练策略。图1展示了我们在 mini-ImageNet 上使用 WRN 进行的一个任意给定的五类五次样本任务中,真实图结构、在特征空间上生成的静态图结构(标签传播过程中局部几何关系未更新)以及通过我们的 DGSP 更新后的图结构(迭代次数从1到20)的可视化结果。这些可视化结果有力地证明了图结构更新的重要性以及所提出的 DGSP 的有效性,同时也揭示了我们的 DGSP 可以在任意未见过的少样本任务中准确地逼近其真实的几何分布。
图 1. 可视化结果. 图 1 展示了在 mini-ImageNet 上的一个任意给定的五类五-shot 任务中,使用宽残差网络(WRN)时,真实图结构、特征空间上生成的静态图结构(在标签传播过程中未更新的局部几何关系)以及我们提出的 DGSP 方法更新后的图结构(迭代次数从 1 到 20)的可视化结果。我们可以清楚地看到:1. 单纯依赖特征空间上初始静态图结构 (b) 在面对任意未见过的少样本任务时,无法更好地保留数据之间的真实分布 (a)。这些结果也揭示了图结构更新的重要性。2. 与静态图结构 (b) 相比,更新后的图结构(
k
=
3
k = 3
k=3)能够精确地描述真实数据分布 (a),这证明了我们提出方法的有效性。3. 随着迭代次数
k
k
k 的增加,更新后的图结构(
k
=
5
,
10
,
15
,
20
k = 5, 10, 15, 20
k=5,10,15,20)几乎没有明显的差异。这些结果表明,我们提出的方法只需要少量的迭代
k
k
k 即可获得最优的图结构。因此,我们提出的方法在实际中可能是可行的。(a) 真实图结构 、(b) 静态图结构 、©、更新后的图结构(
k
=
1
k = 1
k=1)、(d)更新后的图结构(
k
=
3
k = 3
k=3) 、(e)更新后的图结构(
k
=
5
k = 5
k=5)、(f) 更新后的图结构(
k
=
10
k = 10
k=10)、(g) 更新后的图结构(
k
=
15
k = 15
k=15)、(h) 更新后的图结构(
k
=
20
k = 20
k=20)
我们在三个广泛使用的基准数据集、两个不同的骨干网络和不同的任务设置下进行了广泛的实验,实验结果表明,DGSP 在与相同骨干方法的转导性少样本学习方法相比,取得了最先进的结果。本文的主要贡献总结如下:
-
我们提出了一种用于少样本分类的 DGSP 模型。对于任何在特征空间上生成的初始图结构,我们同时利用来自数据空间和标签空间的局部几何关系来学习数据之间的真实几何分布。据我们所知,我们是第一个揭示并解决转导性少样本学习中图结构建模准确性问题的研究。
-
我们设计了一种快速高效的交替优化算法,该算法联合学习标签预测矩阵的闭式解,并求解图结构的线性规划问题。此外,我们提出的 DGSP 可以与任何骨干网络结合使用,并且可以轻松推广到任何大规模的少样本任务。与复杂的元学习方法相比,我们的算法提高了每个少样本任务的转导推理效率。
-
在三个基准数据集(mini-ImageNet / tiered-ImageNet / CUB)、两个骨干网络(ResNet-18 / WRN)和两种任务设置(1-shot/5-shot)上的广泛实验结果表明,所提出的 DGSP 优于转导性少样本学习。
2. Related Works
2.1 图表示学习
图是一种简单而有效的方式,用于描述数据之间复杂的交互关系。由于其优越性,图表示学习10,11近年来受到了广泛关注。现有的图表示学习方法可以分为两类:图嵌入方法和图神经网络。图嵌入方法通过降维使得低维数据仍能保留来自高维空间的对应数据的几何分布。例如,Liu 和 Tao10利用图 Hessian 矩阵描述数据之间的流形结构。与图拉普拉斯矩阵相比,图 Hessian 矩阵由于其二阶导数的存在,可以准确地呈现数据的局部几何分布。由于深度学习的广泛应用,许多研究者探索了使用深度神经网络来建模非欧几里得数据或图属性。作为图神经网络的经典工作,图卷积网络(GCN)12首先将卷积神经网络推广到图结构数据,通过融合每个节点及其高阶数据相关关系来更新其特征表示。Fu 等人11也通过提出的谱例子特征图卷积操作,同时考虑了数据的行向量和列向量的局部几何结构。
由于数据空间中存在噪声,上述方法无法正确地保留数据分布之间的真实局部几何结构。近年来,研究人员对这个问题进行了许多关注和尝试。例如,在3D物体检索和识别任务中,Gao 等人13首先构建了其2D图像特征之间的局部几何关系,然后通过为不同的子图分配不同的权重来描述任意3D物体之间的高阶关系。Luo 等人14联合优化了每个视频的预定几何分布和特征选择过程,以解决维度诅咒问题和半监督视频语义识别中存在的局部结构准确性问题。Li 等人15通过自适应融合多个特征的最优低维空间生成的低维表示之间的局部几何关系,旨在捕捉每个数据的最优相似关系。Zhou 等人16引入了一种自适应图学习方法,保留行人多特征描述符之间一致的底层关联关系,从而提高了无监督行人重识别(Re-ID)任务的效果。Liu 等人17将广泛使用的拉普拉斯正则化引入GCN,从而推动GCN自动优化其在输入样本特征上生成的样本结构关系。Fu 等人18利用最后一次迭代中最终图卷积层的输出特征,重新计算下一次迭代的图结构关系。之后,他们采用了一种激进的方式更新模型参数,直到损失收敛,从而得到一个动态GCN模型。尽管动态图结构优化已有效提高了图表示学习任务的性能,但如何在少样本场景中保证图结构建模准确性的方法尚未得到探索。
2.2 少样本学习
近年来,少样本学习19受到了大量的研究关注,旨在基于先前的经验,快速学习一个具有较强泛化能力的分类器,以应对新任务中的有限带标签样本。例如,原型网络20通过对同一类别的支持集特征进行均值操作,定义了每个类别的原型表示。它通过不断最小化查询数据与真实类别原型之间的误差,训练出一个良好的距离度量函数。Sung 等人21引入了关系网络,该网络学习一个可训练的非线性分类器,以预测查询数据和支持数据之间的标签相似性。匹配网络22利用注意力机制学习查询样本和支持样本之间的相似系数,然后通过支持样本标签的加权组合预测每个查询样本的类别信息。近年来,转导性少样本学习成为一种新的趋势,它通过利用和探索支持数据和查询数据在欧几里得空间中的语义相似关系,将标签从支持数据传播到查询数据。Garcia 和 Bruna23首次探讨了图神经网络在少样本学习中的应用,图神经网络通过邻域特征聚合来更新每个节点的特征表示。Hu 等人24引入了双池化图神经网络(GNN),同时利用视频内和视频间的结构信息。
我们可以发现,大多数现有的转导性少样本学习方法在学习过程中仅专注于标签预测矩阵的优化,而忽略了在特征空间上生成的图结构的质量。受图表示学习中图结构优化优势的启发,提出了一种 DGSP 方法,用于少样本分类任务。
3. 动态图结构保持
在本节中,我们将详细介绍我们提出的 DGSP 方法用于少样本分类。给定一个具有少量带标签支持样本的新任务,DGSP 的目标是首先学习一个更好的图结构,该结构可以精确地描述数据之间的局部几何关系,然后推断未标记查询实例的标签预测矩阵。图 2 展示了所提出的 DGSP 框架。
图 2. 所提出的 DGSP 模型用于少样本图像分类的框架:整个框架共包含五个步骤:1. 将任意给定少样本任务的图像输入到特征提取器
f
θ
(
)
f_\theta()
fθ(),然后生成支持集
X
C
∗
N
X_C^{*N}
XC∗N 和查询集
X
C
∗
M
X_C^{*M}
XC∗M 的嵌入特征。2. 根据构建的图结构
W
W
W,通过公式 (6) 优化
Y
I
Y^I
YI。注意,在第一次迭代中,
W
=
W
F
W = W^F
W=WF。3. 利用最优的预测标签
Y
Y
Y 生成
W
L
W^L
WL。根据
W
F
W^F
WF 和
W
L
W^L
WL 通过公式 (8) 联合优化
W
W
W。特征空间(左侧)和标签空间(中间)的图结构
W
F
W^F
WF 和
W
L
W^L
WL 分别表示数据特征
X
X
X 和数据预测标签
Y
Y
Y 之间的局部几何分布。4. 以交替优化的方式重复步骤 (2) 和步骤 (3),直到目标函数 (4) 收敛。此时,可以获得更新后的图结构
W
W
W,它能够精确保留数据之间的局部几何关系。5. 基于图结构
W
W
W 的标签传播过程,推断查询集
X
C
∗
M
X_C^{*M}
XC∗M 的最终预测标签。
3.1 Problem Definition
在本研究中,我们遵循了广泛使用的少样本学习任务设置5 8。对于给定的数据集,我们将其随机拆分成大量子任务,每个子任务包括少量带标签的支持实例 X C ∗ N X_C^{*N} XC∗N 和未标记的查询样本 X C ∗ M X_C^{*M} XC∗M。对于每个子任务, X C ∗ N X_C^{*N} XC∗N 包含来自 C 个新类别的样本,从中随机选择每个类别 N = ∣ X c C ∗ N ∣ N = |X_c C^{*N}| N=∣XcC∗N∣ 个带标签实例作为支持集。来自这 C 个类别的每个类别 M = ∣ X c C ∗ M ∣ M = |X_c C^{*M}| M=∣XcC∗M∣ 个未标记数据被随机选作查询集 X C ∗ M X_C^{*M} XC∗M。其中, c c c 表示第 i i i 类,即 c = { 1 , 2 , … , C } c = \{1, 2, \dots, C\} c={1,2,…,C}。少样本学习旨在利用在带标签的支持集 X C ∗ N X_C^{*N} XC∗N 上训练的模型,正确地将未标记查询集 X C ∗ M X_C^{*M} XC∗M 区分到相应的类别属性。
我们通过在基础类数据 X base X_{\text{base}} Xbase 上定义的标准交叉熵损失来训练骨干网络 f θ ( ) f_\theta() fθ()。 f θ ( ) f_\theta() fθ() 表示学习到的骨干网络的特征嵌入函数,最优参数 θ \theta θ 可以通过不断最小化其在验证集上的最近原型分类损失值来学习。与现有的具有复杂 episodic 训练策略的少样本学习模型不同,我们提出的 DGSP 在学习过程中不会重新训练任何基础模型来提取每个子任务的特征嵌入。
在少样本设置中,我们设定 y i = { y i 1 , y i 2 , … , y i c } y_i = \{y_{i1}, y_{i2}, \dots, y_{ic}\} yi={yi1,yi2,…,yic},其中 y i y_i yi 表示第 i i i 个未标记查询样本的标签预测向量。如果第 i i i 个未标记查询样本属于第 c c c 类,则设定 y i c = 1 y_{ic} = 1 yic=1,否则设定 y i c = 0 y_{ic} = 0 yic=0。令 Y = { y 1 , y 2 , … , y C ∗ M } ∈ R ( C ∗ M ) ∗ C Y = \{y_1, y_2, \dots, y_{C*M}\} \in \mathbb{R}^{(C*M)*C} Y={y1,y2,…,yC∗M}∈R(C∗M)∗C 表示待学习的未标记查询集的标签预测矩阵,其中 C ∗ M C*M C∗M 表示未标记查询样本的数量。 x i = f θ ( z i ) x_i = f_\theta(z_i) xi=fθ(zi) 表示给定输入样本 z i z_i zi 的嵌入特征。我们还设定 W = { w ( x 1 , x 1 ) , w ( x 1 , x 2 ) , … , w ( x i , x j ) } W = \{w(x_1, x_1), w(x_1, x_2), \dots, w(x_i, x_j)\} W={w(x1,x1),w(x1,x2),…,w(xi,xj)},其中 w ( x i , x j ) w(x_i, x_j) w(xi,xj) 表示样本 i i i 和 j j j 之间的局部几何关系。
3.2 Formulation of DGSP
现有的转导性少样本学习方法高度依赖于静态图结构,这些方法在学习过程中无法保证生成的图结构的最优性。为了解决这个问题,DGSP 同时利用特征空间和标签空间中的高阶数据相关性,更新原始图结构中不合适的局部几何关系。因此,特征空间和标签空间中具有相同流形结构的样本很可能具有相同的类别信息。第一个项
φ
(
Y
)
\varphi(Y)
φ(Y) 在每个查询样本
x
i
x_i
xi 及其最近原型特征
P
c
P_c
Pc 的聚类过程中被全局最小化,即
φ
(
Y
)
=
∑
i
=
1
C
∗
M
∑
c
=
1
C
y
i
c
d
(
x
i
,
P
c
)
(1)
\varphi(Y) = \sum_{i=1}^{C*M} \sum_{c=1}^{C} y_{ic} d(x_i, P_c) \tag{1}
φ(Y)=i=1∑C∗Mc=1∑Cyicd(xi,Pc)(1)
在这里,我们使用
d
(
x
i
,
P
c
)
d(x_i, P_c)
d(xi,Pc) 来度量每个查询样本与其最近原型之间的距离。我们使用广泛使用的欧几里得距离来计算
d
(
x
i
,
P
c
)
d(x_i, P_c)
d(xi,Pc)。
P
c
P_c
Pc 表示类别
c
c
c 的原型描述。对于一-shot 任务,即
∣
X
c
∗
N
∣
=
1
|X_c^{*N}| = 1
∣Xc∗N∣=1,
P
c
P_c
Pc 是类别
c
c
c 的带标签支持样本特征。对于五-shot 任务,即
∣
X
c
∗
N
∣
=
5
|X_c^{*N}| = 5
∣Xc∗N∣=5,
P
c
P_c
Pc 被定义为同类别
c
c
c 的带标签支持样本的均值特征。
对于标签预测向量 Y Y Y, φ ( Y , W ) \varphi(Y, W) φ(Y,W) 的目标是使 Y Y Y 在生成的图结构 W W W 上保持平滑性。数据之间的高阶数据相关性越强,这些数据越可能被分配到相同的类别原型 P c P_c Pc。为此,第二项 φ ( Y , W ) \varphi(Y, W) φ(Y,W) 可以写为以下公式:
φ ( Y , W ) = 1 2 C ∗ M ∑ i = 1 C ∗ M ∑ j = 1 C ∗ M w ( x i , x j ) ∥ y i − y j ∥ 2 (2) \varphi(Y, W) = \frac{1}{2C*M} \sum_{i=1}^{C*M} \sum_{j=1}^{C*M} w(x_i, x_j) \|y_i - y_j\|^2 \tag{2} φ(Y,W)=2C∗M1i=1∑C∗Mj=1∑C∗Mw(xi,xj)∥yi−yj∥2(2)
其中, w ( x i , x j ) w(x_i, x_j) w(xi,xj) 表示样本 x i x_i xi 和 x j x_j xj 之间的数据连接。
为了同时保持特征空间和标签空间分布上的局部几何关系,我们将生成的图结构 W W W 的第三项 ψ ( W ) \psi(W) ψ(W) 形式化。关于 W W W 的特征空间项形式如下:
ψ ( W ) = 1 2 C ∗ M ∑ i = 1 C ∗ M ∑ j = 1 C ∗ M w ( x i , x j ) ∥ x i − x j ∥ 2 (3) \psi(W) = \frac{1}{2C*M} \sum_{i=1}^{C*M} \sum_{j=1}^{C*M} w(x_i, x_j) \|x_i - x_j\|^2 \tag{3} ψ(W)=2C∗M1i=1∑C∗Mj=1∑C∗Mw(xi,xj)∥xi−xj∥2(3)
第二项和第三项是广泛使用的拉普拉斯正则化项。通过最小化 (2) 和 (3) 的和,我们提出的公式通过保持来自特征空间 X X X 和标签空间 Y Y Y 的平滑性,使得附近的未标记查询样本 x i x_i xi 和 x j x_j xj 具有相似的标签预测向量。
我们提出的 DGSP 方法的目标函数 Ω ( Y , W ) \Omega(Y, W) Ω(Y,W) 可以写为以下问题:
Ω ( Y , W ) = φ ( Y ) + α 2 φ ( Y , W ) + β 2 ψ ( W ) (4) \Omega(Y, W) = \varphi(Y) + \frac{\alpha}{2} \varphi(Y, W) + \frac{\beta}{2} \psi(W) \tag{4} Ω(Y,W)=φ(Y)+2αφ(Y,W)+2βψ(W)(4)
其中,参数 α \alpha α 和参数 β \beta β 用于平衡第二项和第三项的贡献。
与现有方法的关系:我们提出的 DGSP 方法与最近的 SimpleShot5 和 LaplacianShot8 模型有一定的联系。我们可以发现,当 W W W 固定时,最近提出的 SimpleShot( α = 0 \alpha = 0 α=0 且 β = 0 \beta = 0 β=0)和 LaplacianShot( β = 0 \beta = 0 β=0)模型可以看作是我们提出的 DGSP 方法的特殊情况。然而,上述方法存在以下局限性:1.) SimpleShot 严重依赖于每个查询样本与其最近原型之间的距离 d ( x i , P c ) d(x_i, P_c) d(xi,Pc),而忽略了未标记查询样本之间的局部几何分布;2.) LaplacianShot 仅考虑了查询样本在特征空间上的局部几何分布,而很少关注生成的图结构的质量。为了解决上述局限性,我们提出的 DGSP 同时利用来自特征空间和标签空间的几何分布,以更好地保留数据之间的真实分布。
3.3 Alternating Optimization
当固定 DGSP 的一个变量时,我们可以在交替优化框架下有效地学习另一个变量的最优解。基于这一观察,我们设计了一种高效的交替优化算法,用于联合学习最优的标签预测矩阵 Y Y Y 和更新后的图结构矩阵 W W W。当固定图结构信息时,我们利用转导学习将标签从支持集传播到查询集。基于学习到的标签预测矩阵,我们同时利用来自特征空间和标签空间的高阶数据相关性,以更新原始图结构中不合适的局部几何关系。
固定 W W W 优化 Y Y Y
我们首先固定生成的图结构矩阵 W W W,然后关于标签预测矩阵 Y Y Y 的子目标函数可以写为:
arg min Ω ( Y ) = φ ( Y ) + α 2 φ ( Y , W ) = ∑ i = 1 C ∗ M ∑ c = 1 C y i c d ( x i , P c ) + α 2 ∑ i = 1 C ∗ M D i − α 2 ∑ i = 1 C ∗ M ∑ j = 1 C ∗ M w ( x i , x j ) y i t y j (5) \arg \min \Omega(Y) = \varphi(Y) + \frac{\alpha}{2} \varphi(Y, W)= \sum_{i=1}^{C*M} \sum_{c=1}^{C} y_{ic} d(x_i, P_c) + \frac{\alpha}{2} \sum_{i=1}^{C*M} D_i - \frac{\alpha}{2} \sum_{i=1}^{C*M} \sum_{j=1}^{C*M} w(x_i, x_j) y_i^t y_j \tag{5} argminΩ(Y)=φ(Y)+2αφ(Y,W)=i=1∑C∗Mc=1∑Cyicd(xi,Pc)+2αi=1∑C∗MDi−2αi=1∑C∗Mj=1∑C∗Mw(xi,xj)yityj(5)
其中,
D
i
=
∑
j
=
1
C
∗
M
w
(
x
i
,
x
j
)
D_i = \sum_{j=1}^{C*M} w(x_i, x_j)
Di=∑j=1C∗Mw(xi,xj) 表示查询样本
x
i
x_i
xi 的度矩阵。对于给定子任务的每个节点,我们采用常用的
K
K
K 近邻方法,根据其输入样本特征
x
i
=
f
θ
(
z
i
)
x_i = f_\theta(z_i)
xi=fθ(zi) 获取它们的
K
K
K 近邻样本。如果
x
j
x_j
xj 位于
x
i
x_i
xi 的
K
K
K 近邻内,则设
w
(
x
i
,
x
j
)
=
1
w(x_i, x_j) = 1
w(xi,xj)=1,否则
w
(
x
i
,
x
j
)
=
0
w(x_i, x_j) = 0
w(xi,xj)=0。需要注意的是,这部分中的
w
(
x
i
,
x
j
)
w(x_i, x_j)
w(xi,xj) (
i
,
j
∈
{
1
,
…
,
C
∗
M
}
i, j \in \{1, \dots, C*M\}
i,j∈{1,…,C∗M})等于在特征空间上生成的
W
F
W^F
WF。根据用于求解目标函数松弛版本的边界优化技术8,25,我们得到了每个标签分配的闭式更新公式,并且该公式具有收敛性保证。因此,
W
W
W 的闭式解可以写为以下公式:
y
i
k
+
1
=
exp
(
−
b
i
+
α
⋅
c
i
k
)
1
t
⋅
exp
(
−
b
i
+
α
⋅
c
i
k
)
(6)
y_i^{k+1} = \frac{\exp(-b_i + \alpha \cdot c_i^k)}{1^t \cdot \exp(-b_i + \alpha \cdot c_i^k)} \tag{6}
yik+1=1t⋅exp(−bi+α⋅cik)exp(−bi+α⋅cik)(6)
其中,
b
i
=
[
b
i
1
,
b
i
2
,
…
,
b
i
c
]
t
b_i = [b_{i1}, b_{i2}, \dots, b_{ic}]^t
bi=[bi1,bi2,…,bic]t,
b
i
c
=
d
(
x
i
,
P
c
)
b_{ic} = d(x_i, P_c)
bic=d(xi,Pc),
c
i
k
=
[
c
i
1
k
,
c
i
2
k
,
…
,
c
i
c
k
]
t
c_i^k = [c_{i1}^k, c_{i2}^k, \dots, c_{ic}^k]^t
cik=[ci1k,ci2k,…,cick]t,并且
c
i
c
k
=
∑
j
=
1
C
∗
M
w
(
x
i
,
x
j
)
y
j
c
k
c_{ic}^k = \sum_{j=1}^{C*M} w(x_i, x_j) y_{jc}^k
cick=∑j=1C∗Mw(xi,xj)yjck。
固定 Y Y Y 优化 W W W
在学习到的标签预测矩阵 Y Y Y 的基础上,我们可以进一步优化初始图结构矩阵 W W W。DGSP 的目标函数可以简化为以下形式:
Ω ( W ) = α 2 φ ( W ) + β 2 ψ ( W ) = 1 4 C ∗ M ∑ i = 1 C ∗ M ∑ j = 1 C ∗ M w ( x i , x j ) ( α ⋅ ∥ y i − y j ∥ 2 + β ⋅ ∥ x i − x j ∥ 2 ) . (7) \Omega(W) = \frac{\alpha}{2} \varphi(W) + \frac{\beta}{2} \psi(W) = \frac{1}{4C*M} \sum_{i=1}^{C*M} \sum_{j=1}^{C*M} w(x_i, x_j) \left(\alpha \cdot \|y_i - y_j\|^2 + \beta \cdot \|x_i - x_j\|^2 \right). \tag{7} Ω(W)=2αφ(W)+2βψ(W)=4C∗M1i=1∑C∗Mj=1∑C∗Mw(xi,xj)(α⋅∥yi−yj∥2+β⋅∥xi−xj∥2).(7)
基于 k + 1 k+1 k+1 次迭代学习到的预测标签 Y Y Y,我们可以获得在标签空间上生成的 W L W^L WL,即如果 x j x_j xj 的预测标签 y j y_j yj 等于 x i x_i xi 的预测标签 y i y_i yi,则 w ( x i , x j ) = 1 w(x_i, x_j) = 1 w(xi,xj)=1;否则, w ( x i , x j ) = 0 w(x_i, x_j) = 0 w(xi,xj)=0。进一步地,我们令 α ⋅ ∥ y i − y j ∥ 2 + β ⋅ ∥ x i − x j ∥ 2 = e i j \alpha \cdot \|y_i - y_j\|^2 + \beta \cdot \|x_i - x_j\|^2 = e_{ij} α⋅∥yi−yj∥2+β⋅∥xi−xj∥2=eij,则 (7) 的解可以进一步简化为:
arg min W Ω ( W ) = 1 4 ∑ i = 1 C ∗ M ∑ j = 1 C ∗ M w ( x i , x j ) e i j . (8) \arg \min_W \Omega(W) = \frac{1}{4} \sum_{i=1}^{C*M} \sum_{j=1}^{C*M} w(x_i, x_j) e_{ij}. \tag{8} argWminΩ(W)=41i=1∑C∗Mj=1∑C∗Mw(xi,xj)eij.(8)
注意,(8) 是一个线性规划问题,保证了一个非常简单的解。为了最小化 (8),我们只需对 w ( x i , x j ) w(x_i, x_j) w(xi,xj) 分配较大的权重当 e i j e_{ij} eij 较小时;当 e i j e_{ij} eij 较大时,对 w ( x i , x j ) w(x_i, x_j) w(xi,xj) 分配较小的权重。具体来说,对于每个查询样本 x i x_i xi,我们首先计算其在特征空间和标签空间中与其他样本的 K K K 个最小距离 e i j e_{ij} eij。然后,当 x j x_j xj 属于 x i x_i xi 的 K K K 近邻时,设定相应的局部几何关系 w ( x i , x j ) = 1 w(x_i, x_j) = 1 w(xi,xj)=1;否则, w ( x i , x j ) = 0 w(x_i, x_j) = 0 w(xi,xj)=0。在更新图结构矩阵 W W W 后,我们进一步优化标签预测矩阵 Y Y Y。该过程将交替执行,直到目标函数值不再下降为止。所提出的 DGSP 模型的完整算法在算法 1 中展示。
4. Experiment
在本节中,我们在三个广泛使用的数据集5上进行了大量实验,通过将我们提出的 DGSP 模型与其他最新的竞争方法进行比较,以证明 DGSP 的有效性。
4.1 实验数据集
我们首先介绍实验所使用的数据集,即 miniImageNet、tiered-ImageNet 和 CUB-200-2011 数据集。miniImageNet 和 tiered-ImageNet 数据集均为从 ILSVRC-12 数据集中采样的子集5。在 mini-ImageNet 数据集中,我们遵循标准的数据集划分设置5,22:选择 64 个类别的图像作为基础集合,16 个类别的图像用于验证,其余的图像作为测试集合。tiered-ImageNet 数据集按照5划分为三部分:351 个训练基础类别,91 个验证类别,以及 160 个测试类别。CUB-200-2011 数据集5是一个细粒度数据集,被划分为 100 个基础类别,50 个验证类别,以及 50 个测试类别26。在我们的实验中,这些数据库中的图像均被调整为 84x84 像素大小。
4.2 实验设置
为了评估我们提出的 DGSP 的有效性,我们引入了两种常用的骨干网络来学习不同的特征嵌入函数 f θ f_\theta fθ。ResNet-18 由 8 个残差块组成,其提取的特征维度为 512。WRN 包含 28 层卷积层,输出特征维度为 640。我们使用带标签平滑的随机梯度下降(SGD)来优化参数 θ \theta θ,其中标签平滑参数设置为 0.1。在基础训练过程中,我们引入了广泛使用的数据增强和颜色扰动方法8,26,以缓解深度模型在极少量带标签样本上的过拟合问题。在特征嵌入函数 f θ f_\theta fθ 的学习过程中,我们将基础类的 minibatch 大小分别设置为 ResNet-18 的 256 和 WRN 的 128。
我们在五类一-shot 和五类五-shot 任务中测试了大量流行的少样本学习方法的分类性能。在所有少样本任务中,我们在查询集中随机选择 ∣ X c ∗ M ∣ = 15 |X_c^{*M}| = 15 ∣Xc∗M∣=15 个样本作为每个类别的测试样本。我们报告了从测试集中随机采样的 10,000 个少样本任务的平均分类精度以及 95% 的置信区间。由于支持样本的数量有限,一-shot 和五-shot 任务的原型不能精确描述每个类别的原型表示。为了解决这个问题,我们引入了文献8中提出的校正原型方法。同时,我们采用了文献8中提出的相同的特征变换方法。Ziko 等人8 表明,结果是在与我们相同的设置下训练的,但我们将其使用的 Hungarian 准确性方法8更改为计算准确率的普通方法5,20,21。对于使用的 K K K 近邻方法, K K K 的值设置为 3。参数 α \alpha α 和 β \beta β 的值根据不同参数组合在验证集上的少样本任务分类性能,从 0.1 到 1.5 中选择。
4.2.1 实验结果
表 I 和表 II 报告了我们提出的 DGSP 在三个不同数据集、两种骨干网络和两种少样本任务上的分类性能,以及与许多现有少样本学习方法的比较结果。
4.2.2 通用小样本任务
表 I 列出了 DGSP 在广泛使用的 miniImageNet 和 tiered-ImageNet 数据集上的少样本分类性能。从这些结果中可以看出,我们提出的 DGSP 在所有数据集、骨干网络和少样本任务上都取得了最佳性能。例如,在 mini-ImageNet 数据集中使用 ResNet,与流行的 RelationNet、MatchingNet、最近提出的 Centroid Alignment、MTUNet、MixtFSL 和 VFH 方法4相比,DGSP 在一-shot 任务中的性能分别提高了 18.79%、18.36%、11.39%、16.24%、11.16% 和 9.39%,在五-shot 任务中的性能分别提高了 13.12%、14.07%、2.6%、12.73%、5.19% 和 3.32%。在 tiered-ImageNet 数据集中使用 WRN,与最近的 BD-CSPN 和 MTUNet 方法相比,DGSP 在一-shot 任务中分别提升了 0.59% 和 16.91%,在5-shot 任务中分别提升了 0.94% 和 7.81%。
值得注意的是,与所有5-shot 任务相比,DGSP 在1-shot 任务中的提升更为显著。主要原因在于,每个类别的带标签支持样本数量减少时,1-shot 任务中的类别原型特征更加不稳定。因此,特征空间上生成的样本之间的初始局部几何关系包含了大量的误差信息。
4.2.3 细粒度少样本任务
在表 II 中,我们报告了 DGSP 在 CUB-200-2011 细粒度图像上的平均分类性能。我们提出的 DGSP 比现有的少样本学习方法(如 MatchingNet、MAML 和 RelationNet)表现更好。与最近提出的 VFH 方法相比,DGSP 在 ResNet-18 网络上1-shot 和5-shot 任务中的性能分别提升了 4.53% 和 1.22%。此外,在细粒度少样本图像分类任务中,DGSP 还优于其他更流行的少样本分类方法,包括 RAP-MAML 和 MAML。
4.2 Ablation Study
4.2.1 关于 φ ( Y ) \varphi(Y) φ(Y)、 φ ( Y , W ) \varphi(Y, W) φ(Y,W) 和 ψ ( W ) \psi(W) ψ(W) 的作用
为了验证 DGSP 目标函数中每一项的作用,我们在 mini-ImageNet、tiered-ImageNet 和 CUB-200-2011 上进行了消融研究。表 III 给出了每一项在 ResNet-18 上的平均分类性能。从这些结果中可以看出,我们提出的 DGSP 模型(第四行)获得了最佳分类性能。DGSP-simple(第三行)仅通过考虑标签空间中的几何关系来更新初始图结构。与 DGSP-simple 相比,DGSP 能够通过同时利用特征空间和标签空间中的数据相关性,而不仅仅是标签空间,更好地学习数据之间的真实局部几何分布。
4.2.2 参数 α \alpha α 和 β \beta β 的作用
在我们提出的 DGSP 模型中,存在两个参数 α \alpha α 和 β \beta β,用于平衡 φ ( Y , W ) \varphi(Y, W) φ(Y,W) 和 ψ ( W ) \psi(W) ψ(W) 的权重。为了验证在验证集中选择的参数是否对应于测试集上的最佳分类性能,图 3 展示了在 mini-ImageNet 上五类一-shot 和五类五-shot 任务中,当固定一个变量时,另一个变量的性能影响。从这些结果可以观察到,当 α = 0.4 \alpha = 0.4 α=0.4 和 β = 0.1 \beta = 0.1 β=0.1 时,验证集和测试集的分类性能均达到最佳。为了进一步证明上述结论的有效性,我们绘制了 mini-ImageNet 上 ResNet-18 的五类一-shot 任务中两个参数的 3D 散点图,用以分析它们的最优组合。从图 4 中可以发现,当 α = 0.4 \alpha = 0.4 α=0.4 和 β = 0.1 \beta = 0.1 β=0.1 时,我们提出的 DGSP 在验证集和测试集上仍然获得了最佳平均准确率,这强有力地证明了在验证集中选择的最佳 α \alpha α 和 β \beta β 值能够对应于测试集上的良好准确率。
4.2.3 推理时间与不同特征变换技术的影响
为了更好地探索我们提出的 DGSP 的性能与运行时间之间的权衡,表 IV 给出了在 mini-ImageNet 上使用 WRN 时,SimpleShot、转导调优、LaplacianShot 和 DGSP 的每个五类五-shot 任务所需的平均推理时间。从这些数据中可以看出,我们提出的 DGSP 的推理时间接近 SimpleShot 和 LaplacianShot,且比转导调优快。这种每个任务的时间消耗是可以接受的。此外,我们还在表 V 中报告了 DGSP 在 mini-ImageNet 上使用 ResNet-18 和不同特征变换技术时五类少样本任务的平均分类性能。使用不同特征变换技术,我们的 DGSP 都获得了一致的性能提升。在本文中,我们的 DGSP 遵循文献 8 和 26 中提出的广泛使用的特征变换技术,即 HorizontalFlip。
5. Conclusion And Future Work
在本文中,我们提出了 DGSP 模型,以联合优化数据之间初始局部几何关系和标签预测矩阵。对于任意少样本子任务上的初始图结构,我们同时利用特征空间和标签空间的局部几何关系来优化其原始数据相关性,从而实现局部动态几何保持建模。此外,我们提出了一种高效的优化方法,用于学习最优的标签预测矩阵和更新的图结构。在三个基准数据集、两种骨干网络和两种少样本任务设置上的大量实验结果表明,与使用相同骨干的转导性少样本学习方法及其他最先进的方法相比,我们提出的 DGSP 模型获得了最佳的分类性能。
转导性少样本学习方法已在各种少样本学习任务(包括分类、目标检测和其他应用)中展现出其卓越性能。然而,在每个少样本子任务或 episodic 任务中,如何在利用数据间局部几何分布的同时准确保留其高阶数据相关性仍然是一个具有挑战性的问题。
尽管在图 1 和实验部分中,我们证明了 DGSP 更新的图结构相比现有转导性少样本学习方法生成的静态图结构能够更精确地描述真实数据分布,但更新的图结构与真实图结构之间仍然存在一定的差异。造成这种现象的主要原因有两方面:
- 基础类训练的骨干网络的鲁棒性:由于基础类与测试类之间的类别差距,基础类上训练的骨干网络通常无法完美适应新类别,导致在特征空间上构建的图结构和预测标签中仍然存在一些噪声信息。
- 局部几何关系描述方法的有效性:采用的具有一阶导数的图拉普拉斯矩阵无法更好地捕捉超越成对关系甚至更复杂的局部几何关系。
在未来的工作中,我们将引入多任务学习、自监督学习、超图学习和 p-拉普拉斯矩阵,以提高基础类训练的骨干网络的鲁棒性,并依次更好地学习数据之间的高阶局部几何关系,从而进一步提升 DGSP 的泛化性能。
H. Dong, K. Song, Q. Wang, Y. Yan, and P. Jiang, “Deep metric learning-based for multi-target few-shot pavement distress classification,” IEEE Trans. Ind. Informat., vol. 18, no. 3, pp. 1801–1810, Mar. 2022. ↩︎
M. Lazarou, T. Stathaki, and Y. Avrithis, “Tensor feature hallucination for few-shot learning,” in Proc. IEEE/CVF Winter Conf. Appl. Comput. Vis., 2022, pp. 3500–3510. ↩︎
A. Afrasiyabi, J.-F. Lalonde, and C. Gagné, “Mixture-based feature space learning for few-shot image classification,” in Proc. IEEE/CVF Int. Conf. Comput. Vis., 2021, pp. 9041–9051. ↩︎ ↩︎
K. Yan, L. Liu, J. Hou, and P. Wang, “Representative local feature mining for few-shot learning,” in Proc. IEEE Conf. Acoust., Speech Signal Process., 2021, pp. 1730–1734. ↩︎ ↩︎
Y. Wang, W.-L. Chao, K. Q. Weinberger, and L. van der Maaten, “Simpleshot: Revisiting nearest-neighbor classification for few-shot learning,” 2019, arXiv:1911.04623. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
C. Finn, P. Abbeel, and S. Levine, “Model-agnostic meta-learning for fast adaptation of deep networks,” in Proc. 34th Int. Conf. Mach. Learn., 2017, pp. 1126–1135. ↩︎
Y. Liu et al., “Learning to propagate labels: Transductive propagation network for few-shot learning,” in Proc. Int. Conf. Learn. Representations, 2018. ↩︎ ↩︎
I. Ziko, J. Dolz, E. Granger, and I. B. Ayed, “Laplacian regularized few-shot learning,” in Proc. Int. Conf. Mach. Learn., 2020, pp. 11660–11670. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
S. Fu et al., “Adaptive multi-scale transductive information propagation for few-shot learning,” Knowl.-Based Syst., 2022, Art. no. 108979. ↩︎ ↩︎
W. Liu and D. Tao, “Multiview Hessian regularization for image annotation,” IEEE Trans. Image Process., vol. 22, no. 7, pp. 2676–2687, Jul. 2013. ↩︎ ↩︎
S. Fu, W. Liu, K. Zhang, and Y. Zhou, “Example-feature graph convolutional networks for semi-supervised classification,” Neurocomputing, vol. 461, pp. 63–76, 2021. ↩︎ ↩︎
T. N. Kipf and M. Welling, “Semi-supervised classification with graph convolutional networks,” in Proc. Int. Conf. Learn. Representations, 2017. ↩︎
Y. Gao, M. Wang, D. Tao, R. Ji, and Q. Dai, “3-D object retrieval and recognition with hypergraph analysis,” IEEE Trans. Image Process., vol. 21, no. 9, pp. 4290–4303, Sep. 2012. ↩︎
M. Luo, X. Chang, L. Nie, Y. Yang, A. G. Hauptmann, and Q. Zheng, “An adaptive semi-supervised feature analysis for video semantic recognition,” IEEE Trans. Cybern., vol. 48, no. 2, pp. 648–660, Feb. 2018. ↩︎
Z. Li, F. Nie, X. Chang, Y. Yang, C. Zhang, and N. Sebe, “Dynamic affinity graph construction for spectral clustering using multiple features,” IEEE Trans. Neural Netw. Learn. Syst., vol. 29, no. 12, pp. 6323–6332, Dec. 2018. ↩︎
R. Zhou, X. Chang, L. Shi, Y.-D. Shen, Y. Yang, and F. Nie, “Person re-identification via multi-feature fusion with adaptive graph learning,” IEEE Trans. Neural Netw. Learn. Syst., vol. 31, no. 5, pp. 1592–1601, May 2020. ↩︎
W. Liu, S. Fu, Y. Zhou, Z.-J. Zha, and L. Nie, “Human activity recognition by manifold regularization based dynamic graph convolutional networks,” Neurocomputing, vol. 444, pp. 217–225, 2021. ↩︎
S. Fu, W. Liu, W. Guan, Y. Zhou, D. Tao, and C. Xu, “Dynamic graph learning convolutional networks for semi-supervised classification,” ACM Trans. Multimedia Comput., Commun. Appl., vol. 17, no. 1s, pp. 1–13, 2021. ↩︎
G.-S. Xie, Z. Zhang, H. Xiong, L. Shao, and X. Li, “Towards zero-shot learning: A brief review and an attention-based embedding network,” IEEE Trans. Circuits Syst. Video Technol., vol. 33, no. 3, pp. 1181–1197, Mar. 2023. ↩︎
J. Snell, K. Swersky, and R. S. Zemel, “Prototypical networks for few-shot learning,” in Proc. 31st Int. Conf. Neural Inf. Process. Syst., 2017, pp. 4080–4090. ↩︎ ↩︎
F. Sung, Y. Yang, L. Zhang, T. Xiang, P. H. Torr, and T. M. Hospedales, “Learning to compare: Relation network for few-shot learning,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2018, pp. 1199–1208. ↩︎ ↩︎
O. Vinyals et al., “Matching networks for one shot learning,” in Proc. 31th Int. Conf. Neural Inf. Process. Syst., 2016, pp. 3630–3638. ↩︎ ↩︎
V. Garcia and J. Bruna, “Few-shot learning with graph neural networks,” in Proc. Int. Conf. Learn. Representations, 2018. ↩︎
Y. Hu, J. Gao, and C. Xu, “Learning dual-pooling graph neural networks for few-shot video classification,” IEEE Trans. Multimedia, vol. 23, pp. 4285–4296, 2021. ↩︎
Z. Zhang, J. T. Kwok, and D.-Y. Yeung, “Surrogate maximization/minimization algorithms and extensions,” Mach. Learn., vol. 69, no. 1, pp. 1–33, 2007. ↩︎
W.-Y. Chen, Y.-C. Liu, Z. Kira, Y.-C. F. Wang, and J.-B. Huang, “A closer look at few-shot classification,” in Proc. Int. Conf. Learn. Representations, 2019. ↩︎ ↩︎ ↩︎