【论文阅读】Sample-Centric Feature Generation for Semi-Supervised Few-Shot Learning

在这里插入图片描述

以样本为中心生成特征,实现半监督小样本学习
引用:Zhang B, Ye H, Yu G, et al. Sample-centric feature generation for semi-supervised few-shot learning[J]. IEEE Transactions on Image Processing, 2022, 31: 2309-2320.
论文地址:下载地址

Abstract

  半监督少样本学习旨在通过有限的标注数据和广泛可用的未标注数据来提高模型的泛化能力。以前的研究尝试通过使用情景训练策略来建模少量标注数据与额外未标注数据之间的关系,通常通过标签传播或伪标签过程进行。然而,由伪标签数据本身表示的特征分布是粗粒度的,这意味着伪标签数据与真实查询数据之间可能存在较大的分布差距。为此,我们提出了一种面向样本的特征生成(SFG)方法,用于半监督少样本图像分类。具体来说,不同类别的少样本标注样本首先被训练用于预测潜在未标注样本的伪标签。接下来,使用半监督元生成器生成围绕每个伪标注样本的派生特征,从而丰富类内特征的多样性。同时,面向样本的生成约束生成的特征紧凑并接近伪标注样本,确保类间特征的可区分性。此外,开发了一种可靠性评估(RA)指标,用于减弱生成的离群值对模型学习的影响。大量实验验证了所提出的特征生成方法在挑战性的单样本和少样本图像分类基准上的有效性。

I. Introduction

  在过去几年中,深度神经网络(DNNs)在各类计算机视觉任务中取得了显著进展,包括图像分类1 2、目标检测3 4 5、语义分割6 7 8等,前提是可以轻松获取大规模训练数据并进行精确标注。然而,在许多实际应用中,如危险区域的自主导航,数据获取对于新领域来说是极其困难的。受到这一观察的启发,既然人类能够从有限的训练样本中轻松学习新知识,少样本图像分类旨在仅通过每个类别的少数(甚至是单个)标注图像来训练图像分类器。这是一个具有挑战性的任务,因为稀缺的训练数据可能导致过拟合问题,进而影响分类器的分类准确性1 9

  最近的研究10 11 12 13 14 15 16 17集中在利用元学习模型,通过情境元训练策略,将从基础类别中学到的元知识迁移到新类别,从而模仿少样本学习(FSL)环境。通常,元学习模型由嵌入网络和元分类器组成。嵌入网络将输入图像编码为任务无关的高级抽象特征,而元分类器则根据从任务分布中抽取的每个任务(或情境)将上述高级特征转换为任务特定的类别向量。典型的元学习模型大致可以分为两类:基于优化的模型1819和基于度量的模型20 21 22 23。基于优化的模型的主要思想是学习良好的网络初始化参数,以便快速适应未见过的任务或类别。此外,基于度量的模型试图找到合适的距离度量方法,以量化查询图像和给定支持图像之间的语义关系。

  除了模型设计外,还有一些研究24 25 26 27结合元学习与各种数据增强方法,以训练一个更加通用的模型。这些研究24 25 26 27 28 29 30 31旨在从扩展训练样本的角度,生成能够直接帮助最终分类目标的图像(或特征)。例如,TriNet29通过利用能够直接增强多层视觉特征的语义,解决了少样本学习问题。DTN32通过有组织的辅助任务共训练,有效地稳定了样本生成过程。AFHN27设计了两个正则化器(分类正则化器和反崩塌正则化器),以提高少样本设置中的分类准确性。最近,提出了分布校准策略33,通过校准偏置的特征分布生成广泛覆盖的样本,从而获得更准确的地面真值分布近似。然而,对于许多在危险环境中的实际应用来说,人类只能访问极其有限的数据,合成的特征很难尽可能覆盖所有的特征模式变化。可能的原因是,只有少量给定样本可能具有有限的代表性能力,且不足以捕捉某个类别的多样化模式变化,进一步导致生成的特征缺乏多样性并被单一模式主导。

  最近,许多研究人员开始研究半监督少样本学习(SSFSL)34 35 36 37 38 39 40 41,主要集中于从少量标注数据和一些未标注数据中进行低样本模型学习。例如,自监督表征学习方法41通过在基础类别的训练阶段添加辅助自监督损失,利用未标注样本,并以半监督的方式利用额外的未标注数据。此外,通过执行标签传播(或伪标签)来建模少样本标注数据与额外未标注数据之间的关系,SSFSL的研究34 35 36 37 38 39 4042在一定程度上缓解了过拟合问题。然而,对于SSFSL,我们发现仅仅利用伪标签数据本身也很难准确地表示要预测的查询集的真实数据分布,因为所有伪标签数据所表示的数据分布是粗粒度的且是静态的。此外,当伪标签数据与真实查询数据之间存在较大分布差距时,精细化和动态的分布调整是必不可少的。

  总体而言,我们的关键见解是,SSFSL任务中的伪标签数据可能无法精确地以细粒度和动态的方式表示查询集的真实数据分布,特别是在可用的未标注样本非常少的情况下。以前这一点被忽视了,但实际上可以通过参数化特征生成方式来加以利用,从而丰富数据分布的多样性,并进一步提高模型准确性。

  因此,为了充分利用具有变化的未标注样本,并以细粒度和动态的生成方式进行处理,我们提出了一种面向样本的特征生成(SFG)方法,用于半监督少样本图像分类,如图 1 所示。具体来说,像 Meta-baseline43、ProtoNet21、ICI38 等基准模型,首先使用每个类别的给定少样本标注样本进行训练,以得到初始分类器,该分类器可以推断未标注样本的伪标签。接下来,为了捕获多样化和具有辨别性的变化模式,从而学习一个鲁棒的分类器,提出了一种面向样本的元生成方法,该方法从伪标签样本中元学习,生成围绕原始伪标签样本的新特征。在这种面向样本的元生成方式中,可以缓解缺乏类内多样性和类间可辨别性的问题。此外,为了消除生成的噪声特征对模型学习的负面影响,设计了一种可靠性评估(RA)指标,计算每个生成特征的可靠性得分,以区分它们。最后,在情境元训练策略的帮助下,提出的 SFG 可以元学习给定特征的类别无关变化模式,并将其推广到新类别进行少样本图像分类。

在这里插入图片描述
图 1. 提出的面向样本的特征生成(SFG)在 2-way-1-shot 半监督少样本学习(SSFSL)任务中的动机。不同的颜色表示来自不同类别的特征,透明度表示增强特征的可靠性(透明度较低表示更可靠)。
左:仅给定每个类别的一个标注样本时,存在多个决策边界(虚线)。
中:通过对未标注集中的特征进行伪标签化,增强支持集,可以在一定程度上缓解上述挑战。
右:通过生成更多样化的特征,围绕每个伪标签特征来增强支持集,元学习的决策边界变得更加鲁棒。

  我们选择了许多不同的元学习模型,包括 Meta-baseline43、ProtoNet21、MetaOptNet19、TPN36 和 ICI38,将其与提出的 SFG 集成,并在 miniImageNet、tieredImageNet、CUB 和 CIFAR-FS 数据集上进行了大量实验。实证结果和消融研究表明,这种面向样本的生成方法不仅显著提高了这些选择的元学习模型的分类准确性,而且在其他最先进的元学习模型上也取得了优越的结果。

  主要贡献总结如下:

  1. 我们的研究为如何有效利用在 SSFSL 社区中广泛可用的未标注数据提供了新的方向,并提出了一种面向样本的特征生成方法,以丰富训练样本的类内多样性,同时在元生成过程中施加面向样本的约束,进一步增强生成特征的类间可辨别性。
  2. 针对生成特征离群点所带来的负面影响,我们开发了一种无参数的 RA 指标来评估每个特征的重要性,并将这种评估结果进一步与半监督少样本学习过程相结合。
  3. 我们在四个公共少样本学习基准上进行了大量实验和分析,提出的方法在这些基准上大幅超越现有的少样本学习方法。

  本文其余部分组织如下:第二部分简要回顾了相关工作。第三部分首先介绍了问题定义,然后提出了半监督面向样本的特征元生成方法,最后给出了优化目标和生成策略。第四部分进行了大量实验,以验证提出的特征生成方法在四个公共基准上的有效性。第五部分给出了深刻的分析和详细的讨论。第六部分给出了结论性评论。

2. Related Works

2.1 Few-Shot Learning

  受益于机器学习社区中元学习方法的快速发展44 45 46,在小样本学习(FSL)场景中学习一个稳健分类器的能力得到了极大的提升47 48 49。这些元学习方法大致可以分为两类:基于优化的方法和基于度量的方法。一些基于优化的方法18 50 专注于学习良好的初始化参数,使得它们能够通过少量的梯度下降更新步骤迅速适应新任务。此外,MetaOptNet19 采用支持向量机(SVM)作为元分类器,充分利用对学习决策边界有帮助的负样本。另一类方法则基于距离度量学习,旨在寻找不同样本之间的语义关系。这些方法,如Matching Networks20、ProtoNet21、TADAM22 和 Relation Networks23,试图基于余弦相似度、欧几里得距离、度量缩放和可学习度量,在嵌入空间中学习一个合适的度量。此外,不同于现有的基于元学习的模型,51 的研究表明,一个简单的基线方法优于上述元学习方法,暗示着学习良好的特征表示可能比算法设计本身更为有效。

2.2 Semi-Supervised Few-Shot Leaning

  与上述FSL方法不同,半监督小样本学习(SSFSL)利用大量未标记图像,在每个回合中执行模型推理34 52 53。最近,几种SSFSL方法35 36 37 试图使用标签传播来构建未标记数据与标记数据之间的关系。此外,LST40 通过元学习选择最有价值的潜在噪声样本,而TransMatch39 在SSFSL场景下首次提出了基于迁移学习的框架。实例可信度推理(ICI)38 通过增加偶然参数的稀疏性,逐步选择最可信的样本实例来执行伪标签过程。另一方面,针对未标记数据的表示学习已经证明对于SSFSL任务是有效的54 55。通过在基础类训练阶段增加辅助的自监督损失,并以半监督的方式利用额外的未标记数据,模型在新类上的泛化能力可以进一步提升41。与上述SSFSL方法不同,我们的研究提供了一种利用广泛可用的未标记样本的新方向,即基于样本的特征元生成,它不仅生成围绕代表性未标记目标的新训练样本,还将这种数据生成与下游分类任务连接成端到端的管道,以确保生成质量。

2.3 Data Augmentation Based Few-Shot Learning

  当前基于数据增强的小样本学习(DAFSL)方法大致可以分为像素级增强和特征级幻觉方法。像素级增强关注于生成具有新模式的图像。为实现这一目标,已经有一些方法被提出,通过使用注意力PixelCNN网络56、图像变形方法29、自训练拼图增强单元57等手段生成多样化的图像。此外,考虑到生成的不完美图像可能促使判别器找出真实的数据分布,MetaGAN28 学会预测伪造图像,以便学习更锐利的决策边界。

  特征级幻觉方法则直接尝试合成新特征,以提高分类准确性。一项初步尝试30 是通过学习类比的概念,将从基础类中学到的特征转移到新类中。这一尝试被一些元学习模型的变种所扩展,例如元幻觉器25、修改后的自编码器24、保持协方差的对抗网络26、密集语义增强网络58 和基于样本对的生成器32,进一步提升元学习模型的泛化能力。最近,AFHN27 被提出,通过条件化的Wasserstein GANs生成新特征,条件为标记的支持特征,随后应用分类正则化器和反崩溃正则化器,以提高生成特征的可区分性。与这些DAFSL方法相比,我们的方法充分利用了广泛可用的未标记样本来丰富生成的多样性,并施加基于样本的约束来增强生成特征的可区分性。

3. The Proposed Method

  本工作的目的是从特征生成的角度提高给定分类器的少样本学习能力。图 2 显示了基于典型基线元模型的提出的面向样本特征生成(SFG)方法的整体框架。为了便于理解,我们首先给出问题的公式化以及少样本元学习的情境采样策略(图 2 中的第一阶段)。接下来,我们介绍面向样本的元生成模块和可靠性评估(RA)指标的详细内容(图 2 中的第二阶段)。最后,我们给出了所提出的基于元学习的方法的整体目标和优化策略。
在这里插入图片描述
图2. 提出方法在 3-way-1-shot 分类场景下的概述,其中 H 1 H_1 H1 H 2 H_2 H2 分别表示使用标注支持特征 S S S 和增强特征 S ∗ S^* S 训练的元分类器。不同的颜色表示属于不同类别的特征,透明度较低表示更可靠。 G G G D D D 分别表示生成器和判别器。

3.1 Preliminaries

3.1.1 Problem Definition

  假设 D base D_{\text{base}} Dbase 是基础类别的集合, F F F 是特征嵌入网络, H H H 是元分类器。元学习的目的是通过情境元训练策略在 D base D_{\text{base}} Dbase 上学习一个任务无关的 F F F H H H,使得 F F F H H H 可以推广到未见过的新类别 D novel D_{\text{novel}} Dnovel,其中 D base ∩ D novel = ∅ D_{\text{base}} \cap D_{\text{novel}} = \emptyset DbaseDnovel=

3.1.2 Episodic Task Sampling

  对于少样本学习(FSL),给定一个 N N N-way- K K K-shot 分类任务(或情境) T T T,从任务分布 P ( T ) P(T) P(T) 中抽取,我们尝试区分 N N N 类样本,每个类别在支持集 S S S 中仅有 K K K 个标注样本。对于半监督少样本学习(Semi-supervised FSL),每个情境 T T T 都有来自支持集 S S S 的一些标注样本和来自未标注集 R R R 的额外未标注样本。算法使用这些样本来学习 F F F H H H,并利用它们来预测查询集 Q Q Q 中样本的标签。为了最小化不同情境间的泛化误差,情境元训练基准模型的目标函数可以表示为:

L cls ( F , H ; S ) = ∑ ( x Q , y Q ) ∈ Q log ⁡ P ( y Q ∣ H ( F ( x Q ) ) ; S ) , max ⁡ F , H E T ∼ P ( T ) [ E S ∼ T , Q ∼ T [ L ( F , H ; S ) ] ] , (1) L_{\text{cls}}(F, H; S) = \sum_{(x_Q, y_Q) \in Q} \log P(y_Q | H(F(x_Q)); S), \max_{F, H} \mathbb{E}_{T \sim P(T)} \left[ \mathbb{E}_{S \sim T, Q \sim T} \left[ L(F, H; S) \right] \right], \tag{1} Lcls(F,H;S)=(xQ,yQ)QlogP(yQH(F(xQ));S),F,HmaxETP(T)[EST,QT[L(F,H;S)]],(1)

其中 x Q x_Q xQ y Q y_Q yQ 分别表示查询集 Q Q Q 中每个查询图像及其标签。查询标签 y Q y_Q yQ 可用于在 D base D_{\text{base}} Dbase 上进行模型训练,但仅能在 D novel D_{\text{novel}} Dnovel 上进行模型评估。此外, L cls L_{\text{cls}} Lcls 是查询图像的分类损失函数。

3.2 Semi-Supervised Sample-Centric Feature Meta-Generation

  手动标注来自不同元任务的训练样本既费力又耗时,而额外的未标注数据在实际应用中往往是 readily 可用的。因此,我们旨在通过半监督特征生成方法将 S S S 扩展为 S ∗ S^* S,使得从 S ∗ S^* S 学到的 F F F H H H 更加鲁棒,从而能够更好地预测查询图像的标签,其中 S ∗ S^* S 表示增强后的集合。

3.2.1 半监督伪标签化

  如前所述,给定仅有少量标注样本(例如,1-shot 情境),生成特征的类内多样性很难得到保证。因此,我们利用容易获得的未标注样本来补充标注支持样本的不足。具体来说,给定来自初始集合 S S S N × 1 N \times 1 N×1 个标注样本,我们首先元训练 F F F H H H,以获得初始决策边界,该边界可用于推断来自未标注集 R R R 的未标注样本的伪标签。特别地,所有未标注样本将在每个情境 T T T 中根据以下公式(式(2))被分配伪标签:
n = arg ⁡ max ⁡ H 1 ( F ( x j R ) ) , (2) n = \arg\max H_1(F(x^R_j)),\tag{2} n=argmaxH1(F(xjR)),(2)
其中 H 1 H_1 H1 表示使用给定的少样本标注样本学到的元分类器,可以用来计算未标注样本属于每个类别的概率, x j R x^R_j xjR 表示来自未标注集 R R R 的第 j j j 张图像。此外, x ^ j , n R \hat{x}^R_{j,n} x^j,nR 表示未标注样本 x j R x^R_j xjR 被预测(伪标签化)为类别 n n n n ∈ { 1 , … , N } n \in \{1, \dots, N\} n{1,,N})。

3.2.2 面向样本的元生成

  基于伪标签特征,提出了面向样本的元生成模块,用于生成特定类别的特征,同时考虑类内多样性和类间可辨别性。类内多样性确保合成的特征具有足够的多样性,以尽可能多地表示该类别的多种模式,避免仅由少数几种模式主导。类间可辨别性确保生成的多样化特征仍然能够正确分类到它们所属的类别,并且具有足够的辨别力,能够区分不同类别。

  对于特征多样性,令 F ( x ^ j , n R ) F(\hat{x}^R_{j,n}) F(x^j,nR) 表示第 j j j 个伪标签特征对应类别 n n n,其中 F ( x ^ j , n R ) ∈ R 512 F(\hat{x}^R_{j,n}) \in \mathbb{R}^{512} F(x^j,nR)R512(对于 ResNet-12 主干网络)。考虑到这些伪标签特征 F ( x ^ j , n R ) F(\hat{x}^R_{j,n}) F(x^j,nR) 表现出多样化的分布,可能会鼓励生成对抗网络(GANs)生成具有较大类内方差的样本,因此设计的特征生成模块首先将每个类别的伪标签特征作为条件,进一步引入噪声向量来生成新的特征,如下所示:
L GAN ( G , D ) = ∑ j , n [ log ⁡ D ( F ( x j , n Q ) ) + log ⁡ ( 1 − D ( G ( F ( x ^ j , n R ) , z j ) ) ) ] , (3) L_{\text{GAN}}(G, D) = \sum_{j,n} \left[ \log D(F(x^Q_{j,n})) + \log (1 - D(G(F(\hat{x}^R_{j,n}), z_j))) \right], \tag{3} LGAN(G,D)=j,n[logD(F(xj,nQ))+log(1D(G(F(x^j,nR),zj)))],(3)
其中 G G G 表示生成器,接受伪标签特征 F ( x ^ j , n R ) F(\hat{x}^R_{j,n}) F(x^j,nR) 和高斯噪声向量 z j z_j zj 作为输入。 F ( x j , n Q ) F(x^Q_{j,n}) F(xj,nQ) 表示来自查询集 Q Q Q 的类别 n n n 的真实特征分布, F ( x ^ j , n R ) F(\hat{x}^R_{j,n}) F(x^j,nR) 表示来自未标注集 R R R 的类别 n n n 的伪标签特征。注意,这两个向量通过元素级加法融合,而非连接,以避免 G G G 忽略噪声,从而确保类内特征的多样性。 D D D 表示判别器,接受真实查询特征 F ( x j , n Q ) F(x^Q_{j,n}) F(xj,nQ) 和生成的伪特征 f j , n m = G ( F ( x ^ j , n R ) , z j ) f^m_{j,n} = G(F(\hat{x}^R_{j,n}), z_j) fj,nm=G(F(x^j,nR),zj) 作为输入,其中 f j , n m f^m_{j,n} fj,nm 表示由第 j j j 个伪标签特征生成的第 m m m 个伪特征。由于在元测试(模型评估)阶段无法获得真实查询特征的标签,我们移除了判别器 D D D,仅使用生成器 G G G 来生成更多多样化的特征。

  对于特征的可辨别性,生成的伪特征应当与输入特征呈现相似的分布,并且分布应围绕输入特征,以保持紧凑性。这是通过设计的面向样本的相似度度量来实现的,如下所示:
L sur ( G ) = d ( 1 M ∑ m = 1 M f j , n m , F ( x ^ R j , n ) ) , (4) L_{\text{sur}}(G) = d\left( \frac{1}{M} \sum_{m=1}^{M} f^m_{j,n}, F(\hat{x}_{R_{j,n}}) \right), \tag{4} Lsur(G)=d(M1m=1Mfj,nm,F(x^Rj,n)),(4)
其中 M M M 表示从每个伪标签特征生成的伪特征的数量, d d d 是距离度量。我们使用欧几里得距离来评估相似度。

3.2.3 可靠性评估

  考虑到生成的噪声样本的干扰,为每个新生成的特征分配一个可靠性得分以学习一个良好的泛化模型是很重要的。因此,我们开发了一种非参数化的可靠性评估(RA)指标,它作为一个软掩码,减弱噪声样本对元决策边界学习的负面影响。RA 指标可以表示为:

α m j , n = exp ⁡ ( ⟨ f j , n m , P n ⟩ ) ∑ k = 1 N exp ⁡ ( ⟨ f j , n m , P k ⟩ ) , (5) \alpha_{m_{j,n}} = \frac{\exp\left( \langle f^m_{j,n}, P_n \rangle \right)}{\sum_{k=1}^{N} \exp\left( \langle f^m_{j,n}, P_k \rangle \right)}, \tag{5} αmj,n=k=1Nexp(fj,nm,Pk)exp(fj,nm,Pn),(5)

其中 ⟨ , ⟩ \langle , \rangle , 表示内积, P n P_n Pn 是通过支持特征计算得到的类别 n n n 的初始原型, α m j , n \alpha_{m_{j,n}} αmj,n 表示第 m m m 个伪特征 f j , n m f^m_{j,n} fj,nm 的可靠性得分。基于带有 RA 的生成特征,我们可以通过以下方式扩展增强集 S ∗ S^* S S ∗ = S ∪ { ( f j , n m , α m j , n ) } . S^* = S \cup \{(f^m_{j,n}, \alpha_{m_{j,n}})\}. S=S{(fj,nm,αmj,n)}.

  此外,式(5)意味着那些远离类别原型的生成特征的贡献将被减弱。生成特征的总数等于给定未标注样本数 ∣ R n ∣ |R_n| Rn M M M 的乘积。

  最后,为了调整使用增强集 S ∗ S^* S 的元分类器,我们采用基于度量的方法,将类别 n n n 的原型从 P n P_n Pn 校正为 P n ∗ P^*_n Pn,如以下公式所示:
P n ∗ = ∑ j = 1 ∣ R n ∣ ∑ m = 1 M α m j , n f j , n m , (6) P^*_n = \sum_{j=1}^{|R_n|} \sum_{m=1}^{M} \alpha_{m_{j,n}} f^m_{j,n}, \tag{6} Pn=j=1Rnm=1Mαmj,nfj,nm,(6)
其中 P n ∗ P^*_n Pn 是使用增强集 S ∗ S^* S 校正后的类别原型, α m j , n = α m j , n ∑ j = 1 ∣ R n ∣ ∑ m = 1 M α m j , n \alpha_{m_{j,n}} = \frac{\alpha_{m_{j,n}}}{\sum_{j=1}^{|R_n|} \sum_{m=1}^{M} \alpha_{m_{j,n}}} αmj,n=j=1Rnm=1Mαmj,nαmj,n 表示归一化的可靠性得分。我们使用校正后的类别原型 P n ∗ P^*_n Pn 来预测查询图像的最终标签。

3.2.4 详细的网络结构

   G G G D D D 都采用一个三层的多层感知机(MLP)网络,其中前两层使用 LeakyReLU 激活函数。受 25 启发,我们在 G G G 的最后插入了一个 ReLU 激活函数,因为已知合成的特征是非负的。此外,我们在 D D D 的最后添加了一个 Sigmoid 层。网络结构的可视化图示见图 3。

在这里插入图片描述
图 3. G G G D D D 的详细网络结构,其中 “Fc” 表示全连接层。我们分别展示了使用 ConvNet-64、ResNet-12 和 WRN-28-10 主干网络的不同超参数设置。

3.3 优化与生成策略

3.3.1 整体目标

  提出的 SFG 在 D base D_{\text{base}} Dbase 上的整体损失函数可以写作如下:

min ⁡ G max ⁡ D E T ∼ P ( T ) [ E S ∼ T , Q ∼ T [ L GAN ( G , D ) + L sur ( G ) ] ] , (7) \min_{G} \max_{D} \mathbb{E}_{T \sim P(T)} \left[ \mathbb{E}_{S \sim T, Q \sim T} \left[ L_{\text{GAN}}(G, D) + L_{\text{sur}}(G) \right] \right],\tag{7} GminDmaxETP(T)[EST,QT[LGAN(G,D)+Lsur(G)]],(7)

max ⁡ F , H E T ∼ P ( T ) [ E S ∼ T , Q ∼ T [ L cls ( F , H ; S ∗ ) ] ] . (8) \max_{F,H} \mathbb{E}_{T \sim P(T)} \left[ \mathbb{E}_{S \sim T, Q \sim T} \left[ L_{\text{cls}}(F, H; S^*) \right] \right].\tag{8} F,HmaxETP(T)[EST,QT[Lcls(F,H;S)]].(8)

3.3.2 生成策略

  我们采用以下两阶段的特征生成策略,如图 2 所示。在第一阶段,通过在 D base D_{\text{base}} Dbase 上优化式(1)来训练基线模型。这个过程确保 F F F H H H 可以学习足够的元知识,为后续的特征增强做好准备。第二阶段,我们将 SFG 插入到原始基线模型中,通过联合优化式(7)和式(8)在 D base D_{\text{base}} Dbase 上执行半监督面向样本的特征元生成。

  需要注意的是,通常假设训练任务和测试任务来自相同的分布 28 36。因此,我们采用情境元训练策略来捕捉在训练任务 D base D_{\text{base}} Dbase 上学到的变化模式,这些模式可以通过这种任务级优化推广到新类别(或测试任务) D novel D_{\text{novel}} Dnovel

4. Experiments

  在本节中,我们首先描述了用于评估所提方法的数据集。然后,我们给出了所提方法的两阶段实验设置。进一步地,我们在四个常用的少样本学习基准上评估了所提方法,包括 miniImageNet、tieredImageNet、CUB 和 CIFAR-FS。所有实验都在 PyTorch 中实现。

4.1 数据集描述

  1. miniImageNet:该数据集 20 包含 100 个随机类别。我们遵循原始划分 59,将 64、16 和 20 个类别分别用于元训练、元验证和元测试。

  2. tieredImageNet:这是一个较大的数据集 34,从 ILSVRC-2012 中抽取。该具有挑战性的数据集包含来自 34 类别的 608 个类别,分别分为 351、97 和 160 个类别用于元训练、元验证和元测试。

  3. CUB:该数据集 60 包含来自 200 个类别的 11,788 张鸟类图像。按照 5832,我们使用 100、50 和 50 个类别分别用于元训练、元验证和元测试。对于上述数据集,所有图像均调整为 84 × 84。

  4. CIFAR-FS:该数据集 61 包含来自 CIFAR-100 62 的 100 个类别,每个类别包含 600 张图像。为了公平比较,我们使用 19 提出的相同划分,分别将 64、16 和 20 个类别划分为元训练、元验证和元测试。所有 CIFAR-FS 图像均调整为 32 × 32。

4.2 两阶段实验设置

  为了与现有方法进行全面比较,首先选择具有不同嵌入网络(主干网络)的 Metabaseline 43 作为基线模型。此外,还报告了将所提 SFG 插入不同元学习模型(如 MetaOptNet 19、原型网络(PN)21、TPN 36 和 ICI 38)的实验结果。

  在以下两个情境元训练阶段中,最好的模型是根据其在元验证集上的分类准确率来选择的。需要注意的是,我们在 D novel D_{\text{novel}} Dnovel 上重复每个评估实验 600 次,并报告它们的平均准确率及 95% 置信区间。

4.2.1 第一阶段:元训练基线模型

  首先,按照 21 43 中的设置,我们在 D base D_{\text{base}} Dbase 上预训练选定的基线模型,并去除其最后的全连接层以得到 F F F。基线模型从头开始训练,使用 SGD 优化器,批量大小为 128,动量为 0.9,初始学习率为 0.1。在 90 个 epochs 后,学习率衰减到 1 0 − 2 10^{-2} 102,整个预训练过程在 100 个 epochs 时结束。

  接下来,我们在 D base D_{\text{base}} Dbase 上联合元训练 F F F H H H。对于所有的少样本学习基准,我们在元训练和元测试阶段,每个类别随机选取 15 个查询样本。SGD 被用作优化器,动量、学习率和权重衰减分别设置为 0.9、0.001 和 0.0005。最大训练 epoch 数设置为 30。每个 epoch 包含 miniImageNet、CUB 和 CIFAR-FS 的 200 个批次,以及 tieredImageNet 的 10 个批次。每个批次包含 4 个情境。

4.2.2 第二阶段:半监督特征元生成

  在这一阶段,我们遵循以前半监督少样本学习(FSL)方法 36 34 39 40 在所有数据集上使用的标注/未标注数据划分。此外,除非另有说明,我们使用每个类别来自未标注集 R R R 的 30(50)个未标注样本,用于 1-shot(5-shot)任务。在模型训练过程中,我们将 SFG 插入到选定的基线模型中,然后对第一阶段预训练的修改基线进行微调,以生成更多特征。在此阶段,采用 Adam 优化器,具体参数如下: G G G D D D 的初始学习率为 0.0001,Adam 参数为 β 1 = 0.9 \beta_1 = 0.9 β1=0.9 β 2 = 0.999 \beta_2 = 0.999 β2=0.999。学习率在 30 个 epoch 后衰减为 0.1。训练过程在达到 40 个 epoch 后结束。在模型评估过程中,生成围绕每个伪标签特征的 M M M 个伪特征,除非另有说明, M M M 设置为 8。

4.3 Experimental Results

4.3.1 在 miniImageNet 和 tieredImageNet 上的结果

  表 I 显示,SFG 可以轻松地插入到基于度量的元学习模型中,并且在不同的主干网络(ResNet-12 和 WRN-28-10)上,始终显著提高它们的分类准确率。

表 I. 在 miniImageNet 和 tieredImageNet 上的 5-way 分类准确率(%)。" * " 表示对应的基于 ResNet-12 的模型是由文献 [41] 重新实现的。 " † " 意味着我们重新实现了该方法,因为官方代码未发布。IN 和 TRAN 分别表示归纳推理和传导推理。SSL 表示半监督学习。表中的 stage one 和 stage two 分别表示图 2 中的两个对应阶段。

在这里插入图片描述

  接下来,我们将带有 SFG 的 Meta-baseline 与最先进的半监督少样本学习(SSFSL)方法进行比较。LST 40 采用基于递归学习的自训练策略,挑选未标注样本以缓解少样本场景下的过拟合问题。为了公平比较,在元测试阶段,仅提供每个类别 30(或 50)个未标注样本,用于 1-shot(或 5-shot)任务,这与 LST 40 中的少样本设置一致。此外,对于 TPN 36 和 Masked Soft 34,我们报告了使用 ResNet-12 作为主干网络的结果,以确保公平比较。这些结果表明,通过充分利用未标注数据进行特征生成,带有 SFG 的 Meta-baseline 在 miniImageNet 和 tieredImageNet 上均优于现有的 SSFSL 方法。

  此外,我们还将带有 SFG 的 Meta-baseline 与最先进的基于数据增强的少样本学习(DAFSL)方法 25 27 32 进行比较,这些方法与我们的工作紧密相关。LSII 25 和 AFHN 27 设计了端到端特征幻觉器和基于对抗的特征幻觉网络,分别生成额外的训练样本,从而直接提升最终的分类准确率。DTN 32 尝试将基础类别的潜在多样性迁移到新类别,以生成新类别的额外样本。表 I 中的结果表明,与这些通常在生成多样化特征方面面临挑战的数据增强 FSL 方法相比,利用半监督面向样本的元生成所带来的性能提升是显著的。

4.3.2 CUB 和 CIFAR-FS

  为了验证所提的 SFG 是否能推广到不同的少样本基准数据集,我们在另外两个常见的数据集上进行了实验。如表 II 所示,在少样本场景下,SFG 显著提高了分类准确率。此外,带有 SFG 的 Meta-baseline 在 CUB 上超过了最先进的 FSL 和 DAFSL 方法约 9.5% ∼ 11.5%,在 CIFAR-FS 上超过约 8.1% ∼ 9.5%。

表 II. 在 CUB 和 CIFAR-FS 上的 5-way 分类准确率(%)。表中 stage one 和 stage two 的定义参照表 I。需要注意的是,对于 CUB 数据集,我们仅使用图像级标签,边界框级标签在我们的实验中未使用。

在这里插入图片描述

4.3.2 SFG 的泛化评估

  为了进一步展示 SFG 可以插入到不同的元学习模型中,我们通过采用归纳式少样本模型和半监督 FSL 模型作为新的基线,进行实验,并将由所提 SFG 生成的样本作为额外的标注训练数据,以训练更好的分类器。ProtoNet 21 和 MetaOptNet 19 代表少样本学习中的归纳式元学习模型,而 TPN 36 和 ICI 38 代表半监督元学习模型。对于表 III 和表 IV 中的实验,每个伪标签样本生成 8 个伪特征,这与表 I 中的实验设置一致。

表 III. 在将 SFG 插入到归纳元学习基线模型中时,在 miniImageNet 和 tieredImageNet 上的 5-way-1-shot 分类准确率(%)。
在这里插入图片描述
  结果表明,新生成的特征也提高了归纳式元学习基线模型(如表 III 所示)和半监督元学习基线模型(如表 IV 所示)的分类准确率。此外,SFG 能够为不同数据集上的不同 SSFSL 基线模型带来显著的准确性提升,进一步验证了 SFG 在少样本学习场景下生成更多样化和有用特征的有效性。

表 IV:在 miniImageNet 和 tieredImageNet 上插入 SFG 到其他半监督元学习基线模型中的 5 类 1-shot 分类准确率 (%)。其中, ∣ R n ∣ |R_n| Rn 表示给定的未标记样本数量,“♣” 和 “♠” 分别表示使用 ConvNet-64 和 ResNet-12 的模型。
在这里插入图片描述

5. Insight Analyses

5.1 各部分消融研究

  我们在 miniImageNet 和 tieredImageNet 上进行消融研究,以展示从两个方面带来的性能提升:1)伪标签策略和 2)特征级元生成方法。

  首先,表 V 显示了未标注集伪标签策略带来的准确性提升。需要注意的是,我们对所有给定的未标注样本进行伪标签化,分别用于带有 PL 的 Meta-baseline 和带有 PL 和 RA 的 Meta-baseline 以进行公平比较。结果表明,通过利用来自未标注集的伪标签特征来增强支持集,元学习基线模型的过拟合问题可以得到一定程度的缓解,但性能仍然不尽人意。

表 V:通过在 SFG 中结合 RA 度量的伪标签策略(PL)获得的准确率提升,其中 ∣ R n ∣ |R_n| Rn 表示每个类别给定的未标记样本数量。
在这里插入图片描述
  此外,我们在表 VI 中研究了所提特征级生成方法对模型准确性的影响。结果表明,通过将每个伪标签特征作为条件来生成新的面向样本的特征,模型性能得到了显著提升。此外,使用设计的特征 RA 指标可以实现最佳分类准确率(73.07%)。

表 VI:通过特征级生成方式获得的准确率提升,其中 M M M 表示从每个伪标签特征生成的假特征数量,伪标签策略(PL)和 ∣ R n ∣ |R_n| Rn 的定义与表 V 相同。
在这里插入图片描述

5.2 未标注样本的作用

  在许多实际应用中,未标注样本可能并不总是 readily 可用。在这里,我们研究了给定未标注样本的数量对最终分类准确率的影响。表 VII 显示了给定未标注样本数量与 1-shot 分类准确率之间的关系。从表 VII 可以看出,随着未标注样本数量的增加,特征的泛化能力会有所提升。

表 VII:改变每个类别给定的未标记样本数量的 5 类 1-shot 分类准确率 (%)。
在这里插入图片描述

5.3 类干扰的影响

  在许多实际应用中,未标注样本可能并不总是 readily 可用。在这里,我们研究了给定未标注样本的数量对最终考虑到一个更具挑战性的半监督少样本学习(FSL)场景:一些未标注样本可能来自于与支持集标注类别不同的干扰类别。根据 40 中的实验设置,我们报告了使用来自 3 个干扰类别的未标注数据进行 5-way-1-shot 分类的准确率,如表 VIII 所示。结果表明,干扰类别会降低半监督模型在少样本任务中的分类准确率。此外,所提方法在 w/o D 和 w/D 设置下,始终优于 LST 40

表 VIII:类别干扰对特征生成的影响,其中 “W/D” 表示我们额外采样了 3 个无关类别作为干扰项, ∣ R n ∣ |R_n| Rn 表示每个类别给定的未标记样本数量。在这里插入图片描述

5.4 生成特征的数量和有效性

  首先,图 4(a) 显示了当每个伪标签样本生成的伪特征数量 M M M 从 2 增加到 8 时,模型的性能逐步提高,这意味着 SFG 能够捕捉到类别内特征模式的某些变化,从而合成多样化的特征以提高性能。然而,由于面向样本的约束,单一标注样本和未标注样本所引起的特征变化仍然有限,因此,随着合成特征数量的增加,模型性能提升应当存在一个上限。其次,随着给定支持特征数量的增加(在我们的实验中从 1-shot 到 6-shot),SFG 带来的性能提升逐渐变小,如图 4(b) 所示。这是合理的,因为 1-shot 学习比 5-shot 学习为每个类别生成更多样化的特征模式提供了更多空间。
在这里插入图片描述
图 4. 改变生成的伪特征数量 M M M 和支持特征在新类别上的结果。左图中的红色虚线表示基线结果,其中每个类别给定 30 个未标注样本。

  此外,我们还进行了一项实验,采用手动特征扰动的方式来生成特征。具体来说,给定一个伪标签的查询特征 F ( x ^ R j , n ) F(\hat{x}_{R_{j,n}}) F(x^Rj,n),我们尝试生成具有以该伪标签查询特征为中心的高斯分布的特征。表 IX 中报告的实验结果表明,这种静态或任务无关的特征扰动方式无法适应不同的元任务(或元学习社区中的情境),因为不同元任务之间的类内和类间特征分布是不同的,通过这种手动特征扰动方式很难找到一致的分布生成方式。

表 IX:在 miniImageNet 上分别使用所提出的 SFG 和手动特征扰动方式的 5 类 1-shot 分类准确率 (%)。MFP 指的是手动特征扰动(Manual Feature Perturbation)。
在这里插入图片描述

5.4 特征可视化

  我们通过 tSNE 63 可视化了不同采样任务(两个代表性的 5-way 分类任务)中的支持特征、生成特征和查询特征,如图 5 和图 6 所示。可视化结果表明,生成的特征能够更好地与真实查询特征匹配,从而提高查询样本的分类准确率。
在这里插入图片描述图 5. (a)支持特征,(b)生成特征( M = 2 M = 2 M=2),(c)生成特征( M = 8 M = 8 M=8),(d)查询特征的可视化。不同的颜色表示属于不同类别的特征,三角形、圆形和方形的定义参照图 2。此外, M M M 的定义参照表 VI。

在这里插入图片描述
图 6. (a)支持特征,(b)生成特征( M = 2 M = 2 M=2),(c)生成特征( M = 8 M = 8 M=8),(d)查询特征的可视化。不同的颜色表示属于不同类别的特征,三角形、圆形和方形的定义参照图 2。此外, M M M 的定义参照表 VI。

6. CONCLUSION

  在本研究中,我们旨在充分利用现实世界中 readily 可用的未标注样本,并提出了一种面向样本的特征生成(SFG)方法,用于半监督少样本学习。首先设计了一个面向样本的元生成模块,从每个伪标签样本中进行元学习,以生成多样化且具有区分性的新的特征。然后,开发了一种可靠性评估(RA)指标,用于减弱生成特征离群点对模型学习的负面影响。四个基准上的实证研究表明,所提 SFG 显著提高了现有元学习模型的分类准确率,特别是在训练数据非常稀缺的 1-shot 学习场景下。当一些未标注样本来自于干扰类别时,使用这些未标注样本的分类准确率必然会下降。因此,在存在干扰类别的情况下,如何生成多样化的特征(或样本)需要在未来进一步研究。


  1. K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp. 770–778. ↩︎ ↩︎

  2. J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitation networks,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 7132–7141. ↩︎

  3. T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollar, “Focal loss for dense object detection,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Oct. 2017, pp. 2980–2988. ↩︎

  4. S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards realtime object detection with region proposal networks,” in Proc. Adv. Neural Inf. Process. Syst., 2015, pp. 91–99. ↩︎

  5. W. Liu et al., “SSD: Single shot multibox detector,” in Proc. Eur. Conf. Comput. Vis., 2016, pp. 21–37. ↩︎

  6. L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 40, no. 4, pp. 834–848, Apr. 2016. ↩︎

  7. J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2015, pp. 3431–3440. ↩︎

  8. H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, “Pyramid scene parsing network,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 2881–2890. ↩︎

  9. G. Huang, Z. Liu, L. van der Maaten, and K. Q. Weinberger, “Densely connected convolutional networks,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jul. 2017, pp. 4700–4708. ↩︎

  10. Q. Sun, Y. Liu, T.-S. Chua, and B. Schiele, “Meta-transfer learning for few-shot learning,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 403–412. ↩︎

  11. W.-Y. Chen, Y.-C. Liu, Z. Kira, Y.-C. F. Wang, and J.-B. Huang, “A closer look at few-shot classification,” in Proc. Int. Conf. Learn. Represent., May 2019, pp. 1–24. ↩︎

  12. Y. Wu et al., “Object-aware long-short-range spatial alignment for few-shot fine-grained image classification,” in Proc. 29th ACM Int. Conf. Multimedia, Oct. 2021, pp. 107–115. ↩︎

  13. Y. Yang, F. Wei, M. Shi, and G. Li, “Restoring negative information in few-shot object detection,” in Proc. Adv. Neural Inf. Process. Syst., 2020, pp. 3521–3532. ↩︎

  14. S. Baik, M. Choi, J. Choi, H. Kim, and K. M. Lee, “Meta-learning with adaptive hyperparameters,” in Proc. Adv. Neural Inf. Process. Syst., 2020, pp. 20755–20765. ↩︎

  15. S. Yan, S. Zhang, and X. He, “A dual attention network with semantic embedding for few-shot learning,” in Proc. AAAI Conf. Artif. Intell., 2019, pp. 9079–9086. ↩︎

  16. B. Liu et al., “Negative margin matters: Understanding margin in few-shot classification,” in Proc. Eur. Conf. Comput. Vis., 2020, pp. 438–455. ↩︎

  17. W. Xue and W. Wang, “One-shot image classification by learning to restore prototypes,” in Proc. AAAI Conf. Artif. Intell., 2020, pp. 6558–6565. ↩︎

  18. C. Finn, P. Abbeel, and S. Levine, “Model-agnostic meta-learning for fast adaptation of deep networks,” in Proc. Int. Conf. Mach. Learn., 2017, pp. 1126–1135. ↩︎ ↩︎

  19. K. Lee, S. Maji, A. Ravichandran, and S. Soatto, “Meta-learning with differentiable convex optimization,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 10657–10665. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  20. O. Vinyals, C. Blundell, T. Lillicrap, and D. Wierstra, “Matching networks for one shot learning,” in Proc. Adv. Neural Inf. Process. Syst., 2016, pp. 3630–3638. ↩︎ ↩︎ ↩︎

  21. J. Snell, K. Swersky, and R. Zemel, “Prototypical networks for few-shot learning,” in Proc. Adv. Neural Inf. Process. Syst., 2017, pp. 4077–4087. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  22. B. Oreshkin, P. R. López, and A. Lacoste, “TADAM: Task dependent adaptive metric for improved few-shot learning,” in Proc. Adv. Neural Inf. Process. Syst., 2018, pp. 1–11. ↩︎ ↩︎

  23. F. Sung, Y. Yang, L. Zhang, T. Xiang, P. H. S. Torr, and T. M. Hospedales, “Learning to compare: Relation network for few-shot learning,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 1199–1208. ↩︎ ↩︎

  24. E. Schwartz et al., “-encoder: An effective sample synthesis method for few-shot object recognition,” in Proc. Adv. Neural Inf. Process. Syst., 2018, pp. 1–11. ↩︎ ↩︎ ↩︎

  25. Y.-X. Wang, R. Girshick, M. Hebert, and B. Hariharan, “Low-shot learning from imaginary data,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 7278–7286. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  26. H. Gao, Z. Shou, A. Zareian, H. Zhang, and S.-F. Chang, “Low-shot learning via covariance-preserving adversarial augmentation networks,” in Proc. Adv. Neural Inf. Process. Syst., 2018, pp. 1–11. ↩︎ ↩︎ ↩︎

  27. K. Li, Y. Zhang, K. Li, and Y. Fu, “Adversarial feature Hallucination networks for few-shot learning,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 13470–13479. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  28. R. Zhang, T. Che, Z. Ghahramani, Y. Bengio, and Y. Song, “MetaGAN: An adversarial approach to few-shot learning,” in Proc. Adv. Neural Inf. Process. Syst., 2018, pp. 8–17. ↩︎ ↩︎ ↩︎

  29. Z. Chen, Y. Fu, Y.-X. Wang, L. Ma, W. Liu, and M. Hebert, “Image deformation meta-networks for one-shot learning,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 8680–8689. ↩︎ ↩︎ ↩︎

  30. B. Hariharan and R. Girshick, “Low-shot visual recognition by shrinking and hallucinating features,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Oct. 2017, pp. 3018–3027. ↩︎ ↩︎

  31. H. Zhang, J. Zhang, and P. Koniusz, “Few-shot learning via saliencyguided hallucination of samples,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2019, pp. 2770–2779. ↩︎

  32. M. Chen et al., “Diversity transfer network for few-shot learning,” in Proc. AAAI Conf. Artif. Intell., 2020, pp. 10559–10566. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  33. S. Yang, L. Liu, L. Yi, J. Wang, and X. Lin, “Learning to memorize for few-shot learning,” in Proc. Adv. Neural Inf. Process. Syst., 2020, pp. 3652–3663. ↩︎

  34. M. Gama et al., “Self-supervised learning for few-shot learning,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2019, pp. 2058–2067. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  35. H. Wang et al., “Attentive few-shot learning with attention similarity networks,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2020, pp. 6123–6131. ↩︎ ↩︎ ↩︎

  36. Y. Liu et al., “Learning to propagate labels: Transductive propagation network for few-shot learning,” in Proc. Int. Conf. Learn. Represent., 2019, pp. 1–14. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  37. P. Rodríguez, I. Laradji, A. Drouin, and A. Lacoste, “Embedding propagation: Smoother manifold for few-shot classification,” in Proc. Eur. Conf. Comput. Vis., 2020, pp. 121–138. ↩︎ ↩︎ ↩︎

  38. Y. Wang, C. Xu, C. Liu, L. Zhang, and Y. Fu, “Instance credibility inference for few-shot learning,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 12836–12845. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  39. Z. Yu, L. Chen, Z. Cheng, and J. Luo, “TransMatch: A transfer learning scheme for semi-supervised few-shot learning,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2020, pp. 12856–12864. ↩︎ ↩︎ ↩︎ ↩︎

  40. X. Li et al., “Learning to self-train for semi-supervised few-shot classification,” in Proc. Adv. Neural Inf. Process. Syst., 2019, pp. 10276–10286. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  41. S. Gidaris, A. Bursuc, N. Komodakis, P. P. Perez, and M. Cord, “Boosting few-shot visual learning with self-supervision,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 8059–8068. ↩︎ ↩︎ ↩︎

  42. K. Huang, J. Geng, W. Jiang, X. Deng, and Z. Xu, “Pseudo-loss confidence metric for semi-supervised few-shot learning,” in Proc. IEEE Int. Conf. Comput. Vis., Oct. 2021, pp. 8671–8680. ↩︎

  43. Y. Chen, Z. Liu, H. Xu, T. Darrell, and X. Wang, “Metabaseline: Exploring simple meta-learning for few-shot learning,” 2020, arXiv:2003.04390. ↩︎ ↩︎ ↩︎ ↩︎

  44. Z. Liu et al., “MetaPruning: Meta learning for automatic neural network channel pruning,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 3296–3305. ↩︎

  45. B. Kang, Z. Liu, X. Wang, F. Yu, J. Feng, and T. Darrell, “Few-shot object detection via feature reweighting,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 8420–8429. ↩︎

  46. C. Finn, A. Rajeswaran, S. Kakade, and S. Levine, “Online meta-learning,” in Proc. Int. Conf. Mach. Learn., 2019, pp. 1920–1930. ↩︎

  47. S. Gidaris and N. Komodakis, “Dynamic few-shot visual learning without forgetting,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 4367–4375. ↩︎

  48. Z. Gao, L. Guo, W. Guan, A.-A. Liu, T. Ren, and S. Chen, “A pairwise attentive adversarial spatiotemporal network for cross-domain few-shot action recognition-R2,” IEEE Trans. Image Process., vol. 30, pp. 767–782, 2021. ↩︎

  49. X.-S. Wei, P. Wang, L. Liu, C. Shen, and J. Wu, “Piecewise classifier mappings: Learning fine-grained learners for novel categories with few examples,” IEEE Trans. Image Process., vol. 28, no. 12, pp. 6116–6125, Dec. 2019. ↩︎

  50. A. A. Rusu et al., “Meta-learning with latent embedding optimization,” in Proc. Int. Conf. Learn. Represent., 2018, pp. 1–17. ↩︎

  51. Y. Tian, Y. Wang, D. Krishnan, J. B. Tenenbaum, and P. Isola, “Rethinking few-shot image classification: A good embedding is all you need?” in Proc. Eur. Conf. Comput. Vis., 2020, pp. 266–282. ↩︎

  52. R. Jiang and Z. Cheng, “Mixture Gaussian prototypes for few-shot learning,” in Proc. Int. Conf. Data Mining Workshops (ICDMW), Dec. 2021, pp. 232–241. ↩︎

  53. V. Garcia and J. Bruna, “Few-shot learning with graph neural networks,” in Proc. Int. Conf. Learn. Represent., 2018, pp. 1–13. ↩︎

  54. J.-C. Su, S. Maji, and B. Hariharan, “When does self-supervision improve few-shot learning?” in Proc. Eur. Conf. Comput. Vis., 2020, pp. 645–666. ↩︎

  55. C. P. Phoo and B. Hariharan, “Self-training for few-shot transfer across extreme task differences,” in Proc. Int. Conf. Learn. Represent., 2020, pp. 1–19. ↩︎

  56. S. Reed et al., “Few-shot autoregressive density estimation: Towards learning to learn distributions,” in Proc. Int. Conf. Learn. Represent., 2018, pp. 1–11. ↩︎

  57. Z. Chen, Y. Fu, K. Chen, and Y.-G. Jiang, “Image block augmentation for one-shot learning,” in Proc. AAAI Conf. Artif. Intell., 2019, pp. 3379–3386. ↩︎

  58. Z. Chen, Y. Fu, Y. Zhang, Y.-G. Jiang, X. Xue, and L. Sigal, “Multilevel semantic feature augmentation for one-shot learning,” IEEE Trans. Image Process., vol. 28, no. 9, pp. 4594–4605, Sep. 2019. ↩︎ ↩︎

  59. A. Srinivasan, A. Bharadwaj, M. Sathyan, and S. Natarajan, “Optimization of image embeddings for few shot learning,” in Proc. 10th Int. Conf. Pattern Recognit. Appl. Methods, 2021, pp. 1–6. ↩︎

  60. C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie, “The Caltech-UCSD birds-200–2011 dataset,” California Inst. Technol., Pasadena, CA, USA, Tech. Rep. CNS-TR-2011-001, 2011. ↩︎

  61. L. Bertinetto, J. F. Henriques, P. H. Torr, and A. Vedaldi, “Meta-learning with differentiable closed-form solvers,” in Proc. Int. Conf. Learn. Represent., 2019, pp. 1–15. ↩︎

  62. A. Krizhevsky, “Learning multiple layers of features from tiny images,” M.S. thesis, Dept. Comput. Sci., Univ. Toronto, Toronto, ON, Canada, 2009. ↩︎

  63. L. van der Maaten and G. Hinton, “Visualizing data using t-SNE,” J. Mach. Learn. Res., vol. 9, pp. 2579–2605, Nov. 2008. ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值