【论文阅读】Few-Shot Learning With Dynamic Graph Structure Preserving

在这里插入图片描述

面向样本的特征生成用于半监督少样本学习
引用:Fu S, Cao Q, Lei Y, et al. Few-shot learning with dynamic graph structure preserving[J]. IEEE Transactions on Industrial Informatics, 2023.
论文地址:下载地址

Abstract

  近年来,少样本学习在物联网领域受到了越来越多的关注。少样本学习的目标是通过每个类别中的少量标签样本来区分未见过的类别。最近的转导性少样本学习研究高度依赖于在特征空间中生成的静态几何分布,这些分布是在未见过类别实例之间进行标签传播过程中产生的。然而,这些方法未能保证生成的图结构能够正确地保持数据之间的真实分布。在本文中,我们提出了一种新颖的动态图结构保持(DGSP)模型用于少样本学习。具体而言,我们通过同时考虑来自特征空间和标签空间的数据相关性来制定DGSP的目标函数,从而更新生成的图结构,这可以合理地修正不合适或错误的局部几何关系。接着,我们设计了一种高效的交替优化算法,以联合学习标签预测矩阵和最优图结构,后者可以被形式化为线性规划问题。此外,我们提出的DGSP可以在学习过程中轻松与任何骨干网络结合使用。我们在不同的基准、骨干网络和任务设置下进行了广泛的实验,结果表明,与基于转导性少样本学习的方法相比,我们的方法达到了最先进的性能。

1. Introduction

  深度学习模型的巨大成功在很大程度上依赖于大量带标签的训练数据。然而,许多现实生活中的物联网应用仅提供极为有限的带标签样本,这无法满足深度学习对大规模训练的需求1。因此,在少量带标签样本上训练具有强泛化能力的分类器变得尤为重要。大量的研究工作已经投入到少样本学习中2 3 4 5。特别是,越来越多的研究集中在基于复杂 episodic 训练策略的元学习3 6。元学习设置将基础训练数据拆分成子任务,每个子任务包含少量带标签的支持样本和未标记的查询样本。其主要目的是通过模拟真实测试环境,提升深度学习模型在未见过类别任务上的泛化性能。

  最近,一些研究探讨了基于转导推理的少样本分类7 8 9,这类方法利用支持集和查询集共同学习判别函数。例如,转导传播网络7通过捕捉两集合之间的高阶局部几何关系,将支持集的标签传播到查询集。LaplacianShot8利用基于特征空间的成对拉普拉斯项,使得具有相同类别原型的未标记样本具有一致的类别信息。Fu 等人9提出了自适应多尺度图,以描述每个子任务的局部几何关系。

  作为少样本学习领域的典型工作之一,现有的大多数转导性少样本学习方法通过构建描述支持集和查询集之间局部几何关系的图结构来推断查询集的标签信息。然而,它们优越的分类性能高度依赖于在标签传播过程中初步构建的静态图结构,即在数据之间捕捉局部几何关系而不进行更新。构建的图结构无法准确地呈现数据之间的真实几何关系,从而导致分类性能较差。因此,在探索数据之间的几何关系时,动态地学习一个合适的图结构是必要的。

  在本文中,我们提出了一种新颖的动态图结构保持(DGSP)模型用于少样本图像分类。我们提出的DGSP的主要目的是展示在现有转导性少样本学习方法中,特征空间上获得的图结构质量的重要性,并给出一种快速高效的方案,确保在任意未见过的少样本任务中图结构建模的准确性。具体而言,我们同时考虑特征空间和标签空间中的数据相关性,并通过结合基于这两个空间的拉普拉斯正则化项来制定DGSP的目标函数,从而优化构建的图结构。与仅考虑基于特征空间或标签空间构建的局部几何关系的方法相比,我们的方法能够使来自不同空间的局部几何关系一致,从而避免错误的标签传播过程。因此,在特征空间和标签空间上具有相同局部几何关系的样本可能具有相同的类别信息。然后,我们开发了一种高效的交替优化算法,联合学习标签预测矩阵和最优图结构。前者通过使用界定优化器技术8有一个闭式解,后者是一个线性规划问题。通过这种方式,我们可以学习更新后的图结构,这个图结构呈现数据之间的真实分布,同时为少样本任务学习最优标签预测矩阵,这也提高了转导推理的效率,相较于大多数基于元学习的转导调优方法。

  在基于基础类的标准交叉熵训练中,我们的方法在学习过程中不对任何骨干网络进行重新训练,从而避免了复杂的 episodic 训练策略。图1展示了我们在 mini-ImageNet 上使用 WRN 进行的一个任意给定的五类五次样本任务中,真实图结构、在特征空间上生成的静态图结构(标签传播过程中局部几何关系未更新)以及通过我们的 DGSP 更新后的图结构(迭代次数从1到20)的可视化结果。这些可视化结果有力地证明了图结构更新的重要性以及所提出的 DGSP 的有效性,同时也揭示了我们的 DGSP 可以在任意未见过的少样本任务中准确地逼近其真实的几何分布。

在这里插入图片描述
图 1. 可视化结果. 图 1 展示了在 mini-ImageNet 上的一个任意给定的五类五-shot 任务中,使用宽残差网络(WRN)时,真实图结构、特征空间上生成的静态图结构(在标签传播过程中未更新的局部几何关系)以及我们提出的 DGSP 方法更新后的图结构(迭代次数从 1 到 20)的可视化结果。我们可以清楚地看到:1. 单纯依赖特征空间上初始静态图结构 (b) 在面对任意未见过的少样本任务时,无法更好地保留数据之间的真实分布 (a)。这些结果也揭示了图结构更新的重要性。2. 与静态图结构 (b) 相比,更新后的图结构( k = 3 k = 3 k=3)能够精确地描述真实数据分布 (a),这证明了我们提出方法的有效性。3. 随着迭代次数 k k k 的增加,更新后的图结构( k = 5 , 10 , 15 , 20 k = 5, 10, 15, 20 k=5,10,15,20)几乎没有明显的差异。这些结果表明,我们提出的方法只需要少量的迭代 k k k 即可获得最优的图结构。因此,我们提出的方法在实际中可能是可行的。(a) 真实图结构 、(b) 静态图结构 、©、更新后的图结构( k = 1 k = 1 k=1)、(d)更新后的图结构( k = 3 k = 3 k=3) 、(e)更新后的图结构( k = 5 k = 5 k=5)、(f) 更新后的图结构( k = 10 k = 10 k=10)、(g) 更新后的图结构( k = 15 k = 15 k=15)、(h) 更新后的图结构( k = 20 k = 20 k=20

  我们在三个广泛使用的基准数据集、两个不同的骨干网络和不同的任务设置下进行了广泛的实验,实验结果表明,DGSP 在与相同骨干方法的转导性少样本学习方法相比,取得了最先进的结果。本文的主要贡献总结如下:

  1. 我们提出了一种用于少样本分类的 DGSP 模型。对于任何在特征空间上生成的初始图结构,我们同时利用来自数据空间和标签空间的局部几何关系来学习数据之间的真实几何分布。据我们所知,我们是第一个揭示并解决转导性少样本学习中图结构建模准确性问题的研究。

  2. 我们设计了一种快速高效的交替优化算法,该算法联合学习标签预测矩阵的闭式解,并求解图结构的线性规划问题。此外,我们提出的 DGSP 可以与任何骨干网络结合使用,并且可以轻松推广到任何大规模的少样本任务。与复杂的元学习方法相比,我们的算法提高了每个少样本任务的转导推理效率。

  3. 在三个基准数据集(mini-ImageNet / tiered-ImageNet / CUB)、两个骨干网络(ResNet-18 / WRN)和两种任务设置(1-shot/5-shot)上的广泛实验结果表明,所提出的 DGSP 优于转导性少样本学习。

2. Related Works

2.1 图表示学习

  图是一种简单而有效的方式,用于描述数据之间复杂的交互关系。由于其优越性,图表示学习1011近年来受到了广泛关注。现有的图表示学习方法可以分为两类:图嵌入方法和图神经网络。图嵌入方法通过降维使得低维数据仍能保留来自高维空间的对应数据的几何分布。例如,Liu 和 Tao10利用图 Hessian 矩阵描述数据之间的流形结构。与图拉普拉斯矩阵相比,图 Hessian 矩阵由于其二阶导数的存在,可以准确地呈现数据的局部几何分布。由于深度学习的广泛应用,许多研究者探索了使用深度神经网络来建模非欧几里得数据或图属性。作为图神经网络的经典工作,图卷积网络(GCN)12首先将卷积神经网络推广到图结构数据,通过融合每个节点及其高阶数据相关关系来更新其特征表示。Fu 等人11也通过提出的谱例子特征图卷积操作,同时考虑了数据的行向量和列向量的局部几何结构。

  由于数据空间中存在噪声,上述方法无法正确地保留数据分布之间的真实局部几何结构。近年来,研究人员对这个问题进行了许多关注和尝试。例如,在3D物体检索和识别任务中,Gao 等人13首先构建了其2D图像特征之间的局部几何关系,然后通过为不同的子图分配不同的权重来描述任意3D物体之间的高阶关系。Luo 等人14联合优化了每个视频的预定几何分布和特征选择过程,以解决维度诅咒问题和半监督视频语义识别中存在的局部结构准确性问题。Li 等人15通过自适应融合多个特征的最优低维空间生成的低维表示之间的局部几何关系,旨在捕捉每个数据的最优相似关系。Zhou 等人16引入了一种自适应图学习方法,保留行人多特征描述符之间一致的底层关联关系,从而提高了无监督行人重识别(Re-ID)任务的效果。Liu 等人17将广泛使用的拉普拉斯正则化引入GCN,从而推动GCN自动优化其在输入样本特征上生成的样本结构关系。Fu 等人18利用最后一次迭代中最终图卷积层的输出特征,重新计算下一次迭代的图结构关系。之后,他们采用了一种激进的方式更新模型参数,直到损失收敛,从而得到一个动态GCN模型。尽管动态图结构优化已有效提高了图表示学习任务的性能,但如何在少样本场景中保证图结构建模准确性的方法尚未得到探索。

2.2 少样本学习

  近年来,少样本学习19受到了大量的研究关注,旨在基于先前的经验,快速学习一个具有较强泛化能力的分类器,以应对新任务中的有限带标签样本。例如,原型网络20通过对同一类别的支持集特征进行均值操作,定义了每个类别的原型表示。它通过不断最小化查询数据与真实类别原型之间的误差,训练出一个良好的距离度量函数。Sung 等人21引入了关系网络,该网络学习一个可训练的非线性分类器,以预测查询数据和支持数据之间的标签相似性。匹配网络22利用注意力机制学习查询样本和支持样本之间的相似系数,然后通过支持样本标签的加权组合预测每个查询样本的类别信息。近年来,转导性少样本学习成为一种新的趋势,它通过利用和探索支持数据和查询数据在欧几里得空间中的语义相似关系,将标签从支持数据传播到查询数据。Garcia 和 Bruna23首次探讨了图神经网络在少样本学习中的应用,图神经网络通过邻域特征聚合来更新每个节点的特征表示。Hu 等人24引入了双池化图神经网络(GNN),同时利用视频内和视频间的结构信息。

  我们可以发现,大多数现有的转导性少样本学习方法在学习过程中仅专注于标签预测矩阵的优化,而忽略了在特征空间上生成的图结构的质量。受图表示学习中图结构优化优势的启发,提出了一种 DGSP 方法,用于少样本分类任务。

3. 动态图结构保持

  在本节中,我们将详细介绍我们提出的 DGSP 方法用于少样本分类。给定一个具有少量带标签支持样本的新任务,DGSP 的目标是首先学习一个更好的图结构,该结构可以精确地描述数据之间的局部几何关系,然后推断未标记查询实例的标签预测矩阵。图 2 展示了所提出的 DGSP 框架。

在这里插入图片描述
图 2. 所提出的 DGSP 模型用于少样本图像分类的框架:整个框架共包含五个步骤:1. 将任意给定少样本任务的图像输入到特征提取器 f θ ( ) f_\theta() fθ(),然后生成支持集 X C ∗ N X_C^{*N} XCN 和查询集 X C ∗ M X_C^{*M} XCM 的嵌入特征。2. 根据构建的图结构 W W W,通过公式 (6) 优化 Y I Y^I YI。注意,在第一次迭代中, W = W F W = W^F W=WF。3. 利用最优的预测标签 Y Y Y 生成 W L W^L WL。根据 W F W^F WF W L W^L WL 通过公式 (8) 联合优化 W W W。特征空间(左侧)和标签空间(中间)的图结构 W F W^F WF W L W^L WL 分别表示数据特征 X X X 和数据预测标签 Y Y Y 之间的局部几何分布。4. 以交替优化的方式重复步骤 (2) 和步骤 (3),直到目标函数 (4) 收敛。此时,可以获得更新后的图结构 W W W,它能够精确保留数据之间的局部几何关系。5. 基于图结构 W W W 的标签传播过程,推断查询集 X C ∗ M X_C^{*M} XCM 的最终预测标签。

3.1 Problem Definition

  在本研究中,我们遵循了广泛使用的少样本学习任务设置5 8。对于给定的数据集,我们将其随机拆分成大量子任务,每个子任务包括少量带标签的支持实例 X C ∗ N X_C^{*N} XCN 和未标记的查询样本 X C ∗ M X_C^{*M} XCM。对于每个子任务, X C ∗ N X_C^{*N} XCN 包含来自 C 个新类别的样本,从中随机选择每个类别 N = ∣ X c C ∗ N ∣ N = |X_c C^{*N}| N=XcCN 个带标签实例作为支持集。来自这 C 个类别的每个类别 M = ∣ X c C ∗ M ∣ M = |X_c C^{*M}| M=XcCM 个未标记数据被随机选作查询集 X C ∗ M X_C^{*M} XCM。其中, c c c 表示第 i i i 类,即 c = { 1 , 2 , … , C } c = \{1, 2, \dots, C\} c={ 1,2,,C}。少样本学习旨在利用在带标签的支持集 X C ∗ N X_C^{*N} XCN 上训练的模型,正确地将未标记查询集 X C ∗ M X_C^{*M} XCM 区分到相应的类别属性。

  我们通过在基础类数据 X base X_{\text{base}} Xbase 上定义的标准交叉熵损失来训练骨干网络 f θ ( ) f_\theta() fθ() f θ ( ) f_\theta() fθ() 表示学习到的骨干网络的特征嵌入函数,最优参数 θ \theta θ 可以通过不断最小化其在验证集上的最近原型分类损失值来学习。与现有的具有复杂 episodic 训练策略的少样本学习模型不同,我们提出的 DGSP 在学习过程中不会重新训练任何基础模型来提取每个子任务的特征嵌入。

  在少样本设置中,我们设定 y i = { y i 1 , y i 2 , … , y i c } y_i = \{y_{i1}, y_{i2}, \dots, y_{ic}\} yi={ yi1,yi2,,yic},其中 y i y_i yi 表示第 i i i 个未标记查询样本的标签预测向量。如果第 i i i 个未标记查询样本属于第 c c c 类,则设定 y i c = 1 y_{ic} = 1 yic=1,否则设定 y i c = 0 y_{ic} = 0 yic=0。令 Y = { y 1 , y 2 , … , y C ∗ M } ∈ R ( C ∗ M ) ∗ C Y = \{y_1, y_2, \dots, y_{C*M}\} \in \mathbb{R}^{(C*M)*C} Y={ y1,y2,,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值