SelfNet:一种用于少样本学习的半监督局部 Fisher 判别网络
引用:Feng, Rui, et al. “SelfNet: A semi-supervised local Fisher discriminant network for few-shot learning.” Neurocomputing 512 (2022): 352-362.
论文地址:下载地址
Abstract
少样本学习通过使用小规模的带标签样本来识别新对象,近年来引起了广泛的研究兴趣。原型网络(Prototypical Network,ProtoNet)是一种简单而有效的元学习方法,用于解决这一问题。然而,在少样本场景下,数据的稀缺性通常会对原型的表示能力产生负面影响。在本文中,我们提出了一种独特的半监督少样本学习架构,称为半监督局部 Fisher 判别网络(SelfNet),它将少样本学习与子空间学习相结合。通过结合支持集和额外的未标记样本集,构建了一个特征投影模块,以实现子空间投影。此外,采用了一种伪标签策略,将具有高预测置信度的未标记样本添加到支持集中,以优化原始原型。在两个少样本分类基准数据集上的实验结果表明,SelfNet 相较于最先进的方法表现出卓越的性能,表明了利用未标记样本进行特征投影的优势。
1. Introduction
在过去几年里,深度学习在计算机视觉、动作识别和自然语言处理等领域取得了成熟1 2。深度学习是一种需要大量标注样本的技术。然而,在实际应用中,收集足够的数据是不可行的。例如,在医学图像理解3、生物图像分析4和交通安全5等领域,数据标注的成本很高。相反,人类能够在很少的直接监督下学习新概念。受这种能力的启发,许多研究人员越来越认识到研究小样本学习(即少-shot学习)的必要性6 7。因此,近年来小样本学习的研究兴趣重新激发,并围绕小样本学习这一主题产生了大量文献。
小样本学习旨在通过机器学习方法模仿人类,即通过少量标注样本识别新物体。为了解决这个问题,已经提出了许多方法,这些方法可以分为三类:迁移学习8 9、数据增强10 11和元学习12。迁移学习的最直观方法是微调(finetuning),其包含两个步骤:在基础类别数据上预训练基础模型;并在新类别数据上对预训练的基础模型进行微调。通常,基础模型是在大规模标注数据集(如ImageNet)上训练的。实际上,当样本极度稀缺时,传统的迁移学习不可避免地会导致过拟合,因为一个或几个标注实例不足以代表新类别的数据分布。数据增强技术可以通过扩展数据集中的样本数量来缓解这一问题,这可以通过多种方式实现:通过借用相似类别的数据来扩展训练集;利用生成对抗网络(GAN)生成新样本11。然而,由于标注样本的稀缺,转换方式有所限制,因此这种策略仍然无法完全解决过拟合问题。另一个成功的避免过拟合问题的尝试是采用元学习策略。元学习策略的核心思想是“学会学习”12。也就是说,它旨在从一组任务中学习一个有效的模型,从而提取元知识以推广到新任务。对于小样本分类,每个任务是一个具有非常少标注样本(即支持集S)和少量未见样本(即查询集Q)的数据集。我们的任务是通过使用支持集中的N×k图像,将查询集中的图像分类为N个类别(这样的少-shot任务被称为N-way k-shot,其中k表示每个类别的样本数量)。代表性的基于元学习的研究包括MAML13、MANN14、Meta Networks15、Matching Network16、Prototypical Network17和LFD-ProtoNet18等。
ProtoNet,指的是原型网络(Prototypical Network),是一个流行的基于元学习的框架。它易于实现,但可以实现与许多复杂模型相当的识别效果。ProtoNet使用神经网络通过将输入样本映射到一个新的嵌入空间来学习非线性映射,然后计算每个类别 c c c的均值向量作为原型。实际上,ProtoNet仅考虑嵌入特征的均值向量,而忽略了数据中的流形结构,当输入数据集具有较高方差时,可能导致误分类。为了解决这个问题,Mukaiyama等人1提出了一种改进方法,名为LFD-ProtoNet,它将ProtoNet与Sugiyama的早期工作——局部Fisher判别分析(LFDA)1相结合。LFD-ProtoNet与原型网络的不同之处在于,它涉及一个特征投影矩阵,该矩阵在特征提取器 f h f_h fh之后,最小化局部类内协方差并最大化局部类间协方差。然而,当仅有少量标注样本时,这些监督方法往往会找到一个过拟合于标注样本的嵌入空间,从而导致偏置的原型。
与收集标注数据相比,在实际应用中获得未标注数据要容易得多,成本也更低。或许我们可以通过引入未标注样本来缓解数据稀缺的问题。正如大家所熟知,半监督学习算法是在少量标注数据和大量未标注数据的组合上进行训练的,它同时提供了监督学习和无监督学习的优势。半监督技术在许多领域得到了广泛应用,如人脸识别19 20、动作识别1和目标检测1。从这个角度来看,我们或许可以使用半监督技术来解决小样本学习问题,几项研究已经证明这一策略既有效又可行21 22。
在本文中,我们提出了一种新型的半监督小样本分类方法,命名为SelfNet(半监督局部Fisher判别网络),它将小样本学习与子空间学习结合在半监督设置中。具体而言,我们引入了一个未标注集 U U U来增强支持集。对于一个元任务 S ; U ; Q S; U; Q S;U;Q,我们采用一个特征提取器,即卷积神经网络,将输入图像嵌入到潜在的特征空间 F F F中。然后,引入半监督局部Fisher判别分析(SELF)1,以获得一个特征映射矩阵,从而获得 F F F的“最优”子空间 A A A。通过这个SELF特征提取步骤,我们可以在最小化支持集类内散布矩阵的同时,最大化类间散布矩阵,保持全局数据结构(包括标注数据和未标注数据)。此外,SelfNet为未标注样本提供伪标签,通过可信的伪标签数据增强支持集,并基于扩展后的支持集计算每个类别的新原型。最后,通过计算查询样本 x x x与精炼后的原型之间的余弦相似度,来确定其类别。
与现有方法相比,主要贡献可以总结如下:
- 我们提出了一种半监督小样本学习方法,名为SelfNet,它结合了元学习和子空间学习的优点。具体而言,我们的方法致力找到 F F F的“最优”子空间 A A A,从而最小化局部Fisher类内散布矩阵并最大化局部Fisher类间散布矩阵。
- 我们利用未标注样本来保持全局数据结构,这解决了监督方法可能因过拟合于少量标注样本而导致的问题。在标签推理阶段,SelfNet选择可信的伪标签数据来扩展支持集,从而获得更准确的原型。
- SelfNet可以看作是原始原型网络的推广。它可以通过相同的优化方法来求解,同时使得原型网络能够从未标注样本中学习。在半监督小样本设置下的大量实验充分表明,我们的方法能够达到与现有最先进方法相媲美的性能。
本文其余部分的组织结构如下:第二部分简要回顾了小样本学习、带有未标注样本的小样本学习、子空间学习和局部Fisher判别分析。第三部分详细描述了所提出的SelfNet方法。第四部分在两个流行的基准数据集上评估了我们的方法,针对小样本分类任务进行了实验。最后,第五部分给出了结论。
2. Related work
2.1. Few-shot learning
最近,元学习策略在小样本学习中得到了广泛应用。元学习策略的核心思想是“学会学习”1。与传统的监督机器学习需要大量数据集从头开始训练模型不同,元学习并不是学习如何解决特定任务,而是能够成功地学习如何解决多个任务。通过从许多相似任务中吸收先验知识,元学习旨在学习一个高效的模型,这个模型可以应用于所有任务,并进一步快速适应具有少量样本的新任务。
基于元学习的主要工作可以分为三个方面:基于优化的方法1 23、基于模型的方法14 15、以及基于度量的方法16 17 18 24 25。一般来说,基于优化的方法认为普通的下降方法难以适应小样本设置。通过调整优化方法来完成小样本任务,从优化角度赋予模型小样本学习能力。例如,Ravi和Larochelle 23 提出了一个基于LSTM的元学习模型,可以作为其他神经网络学习器的优化算法。MAML 13被提出作为一种通用的优化算法,可以用于任何基于梯度下降优化技术的模型。
基于模型的方法使用带有外部或内部记忆的网络。它们依赖于专门设计用于快速学习的模型,这些模型可以在少量样本上快速更新参数。Santoro等人 14 提出了一个带有记忆增强神经网络(MANN)的元学习算法来解决小样本学习问题。外部记忆存储预计能够显式记录一些信息,从而结合神经网络的长期记忆能力来实现小样本学习任务。Meta Networks 15 是另一个为任务快速泛化而设计的元学习模型。
作为最受研究的分支,基于度量的方法旨在学习一个嵌入空间,使得同一类的样本彼此接近,不同类的样本相距较远。例如,RelationNet 25 通过学习一个可迁移的深度矩阵来计算两个图像之间的相似度。ProtoNet 17 将每个类别的均值特征视为类别原型,并根据查询点与每个类别原型的距离进行分类。其他具有代表性的研究包括Matching Network 16、TapNet 26、LFD-ProtoNet 18 和 FEAT 27。
2.2. Few-shot learning with unlabeled samples
最近的研究开始利用未标注样本进行小样本学习。根据未标注样本的来源,可以将其分为两种策略:传导小样本学习28 29 和半监督小样本学习21 22 30。
2.2.1 传导小样本学习
传统的归纳小样本学习框架基于标注的训练数据集训练模型,并逐个预测我们从未遇见过的未标注测试数据。相比之下,传导推理技术在训练模型时已经观察到了训练集和测试集。该模型尝试在组合数据集(训练+测试)中找到有用的信息,并利用这些信息来预测未标注测试样本的标签。相关文献证明,传导推理确实可以缓解数据稀缺问题。例如,TPN 28 是第一个将传导推理应用于小样本学习的框架。它构建了一个图来利用数据中的流形结构,并学习将标签从支持集传播到查询集。Wang 31 提出了一个统计方法,称为实例可信度推理(ICI),来利用未标注样本进行小样本分类。
2.2.2 半监督小样本学习
未标注样本的来源是传导小样本学习方法与半监督小样本学习方法之间的主要区别。前者将整个查询集作为训练过程中考虑的未标注数据,而在半监督小样本学习中,使用一个额外的未标注集来辅助网络学习。在 30 中,Ren 进行了首个关于半监督小样本学习的研究。Ren 提出了三种新的半监督扩展的原型网络,利用未标注数据来细化原始原型。LST 21 采用伪标签和自训练策略来学习如何挑选和标记未标注数据。图神经网络也被用于处理半监督设置中的小样本分类问题 32 22。
2.3. 子空间学习与局部Fisher判别分析(LFDA)
在本节中,我们简要介绍子空间学习,并回顾经典的子空间方法——局部Fisher判别分析(LFDA)33。作为处理高维数据的有效工具,子空间学习方法已广泛应用于信号分析、模式分类和聚类等领域。从本质上讲,子空间学习方法旨在找到一种投影,将高维特征降到低维子空间,同时尽可能保留更多信息。代表性的方法有主成分分析(PCA)34、Fisher判别分析(FDA)35、局部保持投影(LPP)36和局部Fisher判别分析(LFDA)33。其中,作为一种监督式降维方法,LFDA结合了FDA和LPP的思想,在最大化类间距离的同时保持类内的局部结构。接下来,我们简要回顾LFDA。
考虑一个监督分类问题, x i ∈ R d x_i \in \mathbb{R}^d xi∈Rd ( i = 1 , 2 , . . . , N i = 1, 2, ..., N i=1,2,...,N) 是训练集中的一个 d d d维样本, y i ∈ { 1 , 2 , . . . , C } y_i \in \{1, 2, ..., C\} yi∈{1,2,...,C} 表示 x i x_i xi 的真实标签。局部类间散布和局部类内散布可以定义为:
S l w = 1 2 ∑ i , j = 1 n A l w i , j ( x i − x j ) ( x i − x j ) T (1) S_{lw} = \frac{1}{2} \sum_{i,j=1}^{n} A_{lw}^{i,j} (x_i - x_j)(x_i - x_j)^T \tag{1} Slw=21i,j=1∑nAlwi,j(xi−xj)(xi−xj)T(1)
S lb = 1 2 ∑ i = 1 n ∑ j = 1 n A ~ i j lb ( x i − x j ) ( x i − x j ) T (2) \mathbf{S}_{\text{lb}} = \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} \tilde{A}_{ij}^{\text{lb}} (x_i - x_j)(x_i - x_j)^T \tag{2} Slb=21i=1∑nj=1∑nA~ijlb(xi−xj)(xi−xj)T(2)
其中:
A ~ i j lw = { A i j / n c if y i = y j = c 0 if y i ≠ y j (3) \tilde{A}_{ij}^{\text{lw}} = \begin{cases} A_{ij} / n_c & \text{if } y_i = y_j = c \\ 0 & \text{if } y_i \neq y_j \end{cases} \tag{3} A~ijlw={Aij/nc0if yi=yj=cif yi=yj(3)
A ~ i j lb = { A i j ( 1 n − 1 n c ) if y i = y j = c 1 n if y i ≠ y j (4) \tilde{A}_{ij}^{\text{lb}} = \begin{cases} A_{ij} \left( \frac{1}{n} - \frac{1}{n_c} \right) & \text{if } y_i = y_j = c \\ \frac{1}{n} & \text{if } y_i \neq y_j \end{cases} \tag{4} A~ijlb={Aij(n1−nc1)n1if yi=yj=cif yi=yj(4)
其中:
- n n n 表示所有样本的数量。
- n c n_c nc 表示属于类别 c c c 的样本数量。
-
A
\mathbf{A}
A 是亲和矩阵,定义为:
A i j = exp ( − ∥ x i − x j ∥ 2 σ i σ j ) , σ i = ∥ x i − x i ( t ) ∥ A_{ij} = \exp\left(-\frac{\|x_i - x_j\|^2}{\sigma_i \sigma_j}\right), \quad \sigma_i = \|x_i - x_i^{(t)}\| Aij=exp(−σiσj∥xi−xj∥2),σi=∥xi−xi(t)∥。其中, x i ( t ) x_i^{(t)} xi(t) 表示 x i x_i xi 的第 t t t 个最近邻。
然后,LFDA的目标函数可以定义为:
W L F D A = arg max W t r ( W T S l b W ) t r ( W T S l w W ) (5) W_{LFDA} = \arg \max_W \frac{tr(W^T S_{lb} W)}{tr(W^T S_{lw} W)} \tag{5} WLFDA=argWmaxtr(WTSlwW)tr(WTSlbW)(5)
上述优化的目标是找到一个投影方向,使得类间散布 S l b S_{lb} Slb最大化,类内散布 S l w S_{lw} Slw最小化。我们可以通过求解以下广义特征值问题来获得优化问题(5)的解:
S l b u = λ S l w u (6) S_{lb} u = \lambda S_{lw} u \tag{6} Slbu=λSlwu(6)
考虑到 S l w S_{lw} Slw是可逆的,广义特征值问题等价于特征值问题: S l w − 1 S l b u = λ u S_{lw}^{-1} S_{lb} u = \lambda u Slw−1Slbu=λu
对于一个 C C C类问题,投影矩阵 W W W由对应于前 r r r个最大特征值的特征向量组成。
3. Model
3.1. Problem formulation
我们在少样本分类任务中采用了基于情景(episodic)的方法。我们有三个数据集:一个训练集 D train : { ( x i , y i ) } i = 1 N train D_{\text{train}}: \{(x_i, y_i)\}_{i=1}^{N_{\text{train}}} Dtrain:{(xi,yi)}i=1Ntrain,一个测试集 D test : { ( x i , y i ) } i = 1 N test D_{\text{test}}: \{(x_i, y_i)\}_{i=1}^{N_{\text{test}}} Dtest:{(xi,yi)}i=1Ntest,以及一个验证集 D val : { ( x i , y i ) } i = 1 N val D_{\text{val}}: \{(x_i, y_i)\}_{i=1}^{N_{\text{val}}} Dval:{(xi,yi)}i=1Nval。在监督式少样本学习的设置中,训练集由大量带标签的样本组成,而测试集的样本来自于未见过的类别。令 y train y_{\text{train}} ytrain 和 y test y_{\text{test}} ytest 分别表示训练集和测试集的标签集合,并满足 y train ∩ y test = ∅ y_{\text{train}} \cap y_{\text{test}} = \emptyset ytrain∩ytest=∅。验证集 D val D_{\text{val}} Dval 用于调节网络的参数(例如架构,而非权重),并且与 D train D_{\text{train}} Dtrain 和 D test D_{\text{test}} Dtest 互不重叠。
在半监督学习场景中,图像被划分为不相交的有标签集和无标签集。具体来说,在每次训练迭代中,元任务(meta-task)可以表示为一个三元组: ( S , U , Q ) (S, U, Q) (S,U,Q)。我们随机从有标签样本中选择 N N N 个类别(每个类别 k k k 个样本)来构建支持集 S = { ( x i , y i ) } i = 1 N ⋅ k S = \{(x_i, y_i)\}_{i=1}^{N \cdot k} S={(xi,yi)}i=1N⋅k,从无标签样本中选择 M M M 个样本构成无标签集 U = { x 1 , x 2 , … , x M } U = \{x_1, x_2, \dots, x_M\} U={x1,x2,…,xM}。然后,从剩余的有标签样本中选取一部分属于这 N N N 个类别的样本作为查询集 Q = { ( x ^ j , y ^ j ) } j = 1 N ⋅ q Q = \{(\hat{x}_j, \hat{y}_j)\}_{j=1}^{N \cdot q} Q={(x^j,y^j)}j=1N⋅q(每个类别 q q q 个样本)。也就是说,模型需要从 N ⋅ k + M N \cdot k + M N⋅k+M 个样本中学习如何区分这 N N N 个类别,这样的任务被称为 N N N-way k k k-shot 问题。
3.2. Semi-supervised local Fisher discriminant network (SelfNet)
我们在图 1 中介绍了 SelfNet 的整体架构,它由四个关键部分组成:特征嵌入、SELF 矩阵构建、标签推理和损失生成。给定一张输入图像,SelfNet 首先通过卷积神经网络将其嵌入到潜在特征空间 F F F 中。接着,利用支持集和无标签集构建 SELF 矩阵,以挖掘输入图像的流形结构,即通过构建一个映射矩阵 W W W 来找到 F F F 的一个“最优”子空间 A A A。通过这种方式,我们的模型可以在保持全局数据结构(包括有标签数据和无标签数据)的同时,最小化支持集的类内散射矩阵,并最大化其类间散射矩阵。在标签推理模块中,SelfNet 使用无标签样本来优化原型(prototype)。具体来说,模型为无标签样本提供伪标签(pseudo-label),将可信的伪标签数据扩充到支持集中,并基于扩展后的支持集计算每个类别的新原型。最终,通过计算查询样本 x x x 与优化后的原型之间的余弦相似度,确定 x x x 的类别。损失生成模块通过计算查询集中样本的预测标签和其真实标签之间的交叉熵损失,来指导网络参数的更新。我们将在后续章节中更详细地解释 SelfNet。
图 1. SelfNet 的整体架构,包括特征嵌入、SELF 矩阵构建、标签推理和损失生成。
3.2.1. Feature embedding
按照常见的少样本学习策略,对于给定的少样本任务,我们采用卷积神经网络来提取图像特征。令 f h : X → f h ( X ) ∈ F ⊆ R d f_h : X \rightarrow f_h(X) \in F \subseteq \mathbb{R}^d fh:X→fh(X)∈F⊆Rd 表示特征提取器,其中 h h h 表示网络的可学习参数集。为了与之前的工作进行公平比较,我们使用 12 层 ResNet(ResNet12)37作为特征嵌入模块的主干网络。
3.2.2. SELF matrix construction
对于给定的支持集 S S S,特征嵌入模块会生成特征图 f h ( X ) f_h(X) fh(X)。SELF 矩阵构建模块的目标是构建一个映射矩阵 W : f h ( X ) → W f h ( X ) ∈ A W : f_h(X) \rightarrow Wf_h(X) \in A W:fh(X)→Wfh(X)∈A,从而将 f h ( X ) f_h(X) fh(X) 映射到新的特征子空间 A ⊆ R r ( r ≤ d ) A \subseteq \mathbb{R}^r \ (r \leq d) A⊆Rr (r≤d),以最大化类间距离并最小化类内距离。其具体实现细节如下所述。
首先,对于一个 N N N-way k k k-shot 问题,该模块根据以下公式计算支持集 S S S 的局部类间散射矩阵 S lb \mathbf{S}_{\text{lb}} Slb 和局部类内散射矩阵 S lw \mathbf{S}_{\text{lw}} Slw:
S lb = 1 2 ∑ i = 1 N k ∑ j = 1 N k A ~ i j lb ( f 0 ( x i ) − f 0 ( x j ) ) ( f 0 ( x i ) − f 0 ( x j ) ) T (7) \mathbf{S}_{\text{lb}} = \frac{1}{2} \sum_{i=1}^{Nk} \sum_{j=1}^{Nk} \tilde{A}_{ij}^{\text{lb}} \left( f_0(x_i) - f_0(x_j) \right) \left( f_0(x_i) - f_0(x_j) \right)^T \tag{7} Slb=21i=1∑Nkj=1∑NkA~ijlb(f0(xi)−f0(xj))(f0(xi)−f0(xj))T(7)
S lw = 1 2 ∑ i = 1 N k ∑ j = 1 N k A ~ i j lw ( f 0 ( x i ) − f 0 ( x j ) ) ( f 0 ( x i ) − f 0 ( x j ) ) T (8) \mathbf{S}_{\text{lw}} = \frac{1}{2} \sum_{i=1}^{Nk} \sum_{j=1}^{Nk} \tilde{A}_{ij}^{\text{lw}} \left( f_0(x_i) - f_0(x_j) \right) \left( f_0(x_i) - f_0(x_j) \right)^T \tag{8} Slw=21i=1∑Nkj=1∑NkA~ijlw(f0(xi)−f0(xj))(f0(xi)−f0(xj))T(8)
其中:
A ~ i j lw = { A i j / k if y i = y j 0 if y i ≠ y j (9) \tilde{A}_{ij}^{\text{lw}} = \begin{cases} A_{ij} / k & \text{if } y_i = y_j \\ 0 & \text{if } y_i \neq y_j \end{cases} \tag{9} A~ijlw={Aij/k0if yi=yjif yi=yj(9)
A ~ i j lb = { A i j ( 1 N k − 1 k ) if y i = y j 1 N k if y i ≠ y j (10) \tilde{A}_{ij}^{\text{lb}} = \begin{cases} A_{ij} \left( \frac{1}{Nk} - \frac{1}{k} \right) & \text{if } y_i = y_j \\ \frac{1}{Nk} & \text{if } y_i \neq y_j \end{cases} \tag{10} A~ijlb={Aij(Nk1−k1)Nk1if yi=yjif yi=yj(10)
A i j = exp ( − ∥ f θ ( x i ) − f θ ( x j ) ∥ 2 σ 2 ) A_{ij} = \exp\left(-\frac{\|f_\theta(x_i) - f_\theta(x_j)\|^2}{\sigma^2}\right) Aij=exp(−σ2∥fθ(xi)−fθ(xj)∥2)是 f θ ( x i ) f_\theta(x_i) fθ(xi) 和 f θ ( x j ) f_\theta(x_j) fθ(xj) 之间的亲和值, σ \sigma σ 是缩放因子。
对于三元组 ( S , U ) (S, U) (S,U),定义总散射矩阵 S t \mathbf{S}_t St:
S t = ∑ i = 1 N k + M ( f 0 ( x i ) − μ ) ( f 0 ( x i ) − μ ) T (11) \mathbf{S}_t = \sum_{i=1}^{Nk + M} \left(f_0(x_i) - \mu\right) \left(f_0(x_i) - \mu\right)^T \tag{11} St=i=1∑Nk+M(f0(xi)−μ)(f0(xi)−μ)T(11)
其中, μ \mu μ 是所有支持集 S S S 和无标签集 U U U 的均值:
μ = 1 N k + M ∑ i = 1 N k + M f 0 ( x i ) (12) \mu = \frac{1}{Nk + M} \sum_{i=1}^{Nk + M} f_0(x_i) \tag{12} μ=Nk+M1i=1∑Nk+Mf0(xi)(12)
接下来,我们结合局部散射矩阵和总散射矩阵,定义正则化的局部类间散射矩阵 S rlb \mathbf{S}_{\text{rlb}} Srlb 和正则化的局部类内散射矩阵 S rlw \mathbf{S}_{\text{rlw}} Srlw:
S rlb = ( 1 − β ) S lb + β S t (13) \mathbf{S}_{\text{rlb}} = (1 - \beta)\mathbf{S}_{\text{lb}} + \beta\mathbf{S}_t \tag{13} Srlb=(1−β)Slb+βSt(13)
S rlw = ( 1 − β ) S lw (14) \mathbf{S}_{\text{rlw}} = (1 - \beta)\mathbf{S}_{\text{lw}} \tag{14} Srlw=(1−β)Slw(14)
其中, β ∈ [ 0 , 1 ] \beta \in [0, 1] β∈[0,1] 是一个权衡参数,用于控制训练过程中有标签样本和无标签样本的比例。当 β = 0 \beta = 0 β=0 时,SELF 简化为 LFDA;当 β = 1 \beta = 1 β=1 时,SELF 简化为 PCA。新的散射矩阵可以被看作是 LFDA 和 PCA 的结合,继承了两者的特性。也就是说,LFDA 能够利用标签信息,而 PCA 能避免过拟合。
值得注意的是,我们对原始 SELF 方法进行了某些修改,以提高其解的稳定性。原始的 SELF 通过计算
S
rlw
−
1
S
rlb
\mathbf{S}_{\text{rlw}}^{-1} \mathbf{S}_{\text{rlb}}
Srlw−1Srlb 的特征向量来获得最优解。然而,当样本数量小于样本的维度时,
S
rlw
\mathbf{S}_{\text{rlw}}
Srlw 是不可逆的,这导致了小样本问题(Small Sample Size, SSS)。不幸的是,由特征嵌入模块生成的特征图通常具有高维度,而我们拥有的样本数量非常少。
为了解决这一计算难题,可以采用以下几种策略:
- 将 S rlw − 1 \mathbf{S}_{\text{rlw}}^{-1} Srlw−1 替换为伪逆矩阵 S rlw + \mathbf{S}_{\text{rlw}}^{+} Srlw+;
- 向 S rlw \mathbf{S}_{\text{rlw}} Srlw 添加一个扰动值使其非奇异;
- 将特征图转换到 S rlw \mathbf{S}_{\text{rlw}} Srlw 的零空间 V 0 \mathbf{V}_0 V0 中。
在本文中,我们使用最大间距准则(Maximum Margin Criterion, MMC)[46] 来解决上述优化问题。改进后的 SELF 优化问题可以表示为:
W SELF = arg max W tr ( W T ( S rlb − S rlw ) W ) (15) \mathbf{W}_{\text{SELF}} = \arg \max_{\mathbf{W}} \text{tr}\left(\mathbf{W}^T (\mathbf{S}_{\text{rlb}} - \mathbf{S}_{\text{rlw}})\mathbf{W}\right) \tag{15} WSELF=argWmaxtr(WT(Srlb−Srlw)W)(15)
对于公式 (15),我们可以将 W \mathbf{W} W 乘以一个非零常数。因此,我们将 w k \mathbf{w}_k wk 限制为单位向量,即 ∥ w k ∥ = 1 \|\mathbf{w}_k\| = 1 ∥wk∥=1。然后,上述优化问题可以转化为带有等式约束的最大化问题:
max ∑ k = 1 d w k T ( S rlb − S rlw ) w k s.t. w k T w k − 1 = 0 , k = 1 , 2 , … , d (16) \max \sum_{k=1}^d \mathbf{w}_k^T (\mathbf{S}_{\text{rlb}} - \mathbf{S}_{\text{rlw}}) \mathbf{w}_k \quad \text{s.t.} \quad \mathbf{w}_k^T \mathbf{w}_k - 1 = 0, \, k = 1, 2, \dots, d \tag{16} maxk=1∑dwkT(Srlb−Srlw)wks.t.wkTwk−1=0,k=1,2,…,d(16)
使用拉格朗日乘数法(Lagrange Multiplier)来解决该问题,其拉格朗日函数为:
L ( w k , κ k ) = ∑ k = 1 d w k T ( S rlb − S rlw ) w k − κ k ( w k T w k − 1 ) (17) \mathcal{L}(\mathbf{w}_k, \kappa_k) = \sum_{k=1}^d \mathbf{w}_k^T (\mathbf{S}_{\text{rlb}} - \mathbf{S}_{\text{rlw}}) \mathbf{w}_k - \kappa_k (\mathbf{w}_k^T \mathbf{w}_k - 1) \tag{17} L(wk,κk)=k=1∑dwkT(Srlb−Srlw)wk−κk(wkTwk−1)(17)
其中, κ k \kappa_k κk 是拉格朗日乘数。将 L \mathcal{L} L 对 w k \mathbf{w}_k wk 的偏导数设为零,有:
∂ L ( w k , κ k ) ∂ w k = ( S rlb − S rlw − κ k I ) w k = 0 (18) \frac{\partial \mathcal{L}(\mathbf{w}_k, \kappa_k)}{\partial \mathbf{w}_k} = (\mathbf{S}_{\text{rlb}} - \mathbf{S}_{\text{rlw}} - \kappa_k \mathbf{I}) \mathbf{w}_k = 0 \tag{18} ∂wk∂L(wk,κk)=(Srlb−Srlw−κkI)wk=0(18)
因此得到:
( S rlb − S rlw ) w k = κ k w k (19) (\mathbf{S}_{\text{rlb}} - \mathbf{S}_{\text{rlw}}) \mathbf{w}_k = \kappa_k \mathbf{w}_k \tag{19} (Srlb−Srlw)wk=κkwk(19)
因此,投影矩阵 W \mathbf{W} W 由 S rlb − S rlw \mathbf{S}_{\text{rlb}} - \mathbf{S}_{\text{rlw}} Srlb−Srlw 的前 r r r 个最大特征值对应的特征向量组成。
通过使用映射矩阵 W \mathbf{W} W(在后续部分中记为 W SELF f θ \mathbf{W}_{\text{SELF}}^{f_\theta} WSELFfθ),我们的方法可以将 f h ( X ) f_h(X) fh(X) 映射到特征空间 F F F 的一个新特征子空间 A A A,输入图像 x x x 的新表示形式可以表示为:
W SELF f θ f h ( x ) \mathbf{W}_{\text{SELF}}^{f_\theta} f_h(x) WSELFfθfh(x)
3.2.3. Label inference
在本小节中,我们描述如何为查询集 Q Q Q 获取预测标签。每个原型 p c \mathbf{p}_c pc 定义为属于类别 c c c 的嵌入支持向量的均值向量:
p c = 1 N ∑ i = 1 k W SELF f θ f θ ( x c , i ) (20) \mathbf{p}_c = \frac{1}{N} \sum_{i=1}^{k} \mathbf{W}_{\text{SELF}}^{f_\theta} f_\theta(x_{c, i}) \tag{20} pc=N1i=1∑kWSELFfθfθ(xc,i)(20)
接下来,模型使用无标签样本 { x ~ 1 , x ~ 2 , … , x ~ M } \{\tilde{x}_1, \tilde{x}_2, \dots, \tilde{x}_M\} {x~1,x~2,…,x~M} 来更新每个类别的原型。优化后的原型可以表示为:
p ~ c = ∑ i W SELF f θ f θ ( x i ) + ∑ j W SELF f θ f θ ( x j ) z ~ j , c k + ∑ j z ~ j , c (21) \tilde{\mathbf{p}}_c = \frac{\sum_i \mathbf{W}_{\text{SELF}}^{f_\theta} f_\theta(x_i) + \sum_j \mathbf{W}_{\text{SELF}}^{f_\theta} f_\theta(x_j) \tilde{z}_{j, c}}{k + \sum_j \tilde{z}_{j, c}} \tag{21} p~c=k+∑jz~j,c∑iWSELFfθfθ(xi)+∑jWSELFfθfθ(xj)z~j,c(21)
其中, z ~ j , c \tilde{z}_{j, c} z~j,c 表示无标签样本 x ~ j \tilde{x}_j x~j 属于原型 p c \mathbf{p}_c pc 的概率,定义为:
z ~ j , c = exp ( d ( W SELF f θ f θ ( x ~ j ) , p c ) ) ∑ c ′ exp ( d ( W SELF f θ f θ ( x ~ j ) , p c ′ ) ) \tilde{z}_{j, c} = \frac{\exp\left(d\left(\mathbf{W}_{\text{SELF}}^{f_\theta} f_\theta(\tilde{x}_j), \mathbf{p}_c\right)\right)}{\sum_{c'} \exp\left(d\left(\mathbf{W}_{\text{SELF}}^{f_\theta} f_\theta(\tilde{x}_j), \mathbf{p}_{c'}\right)\right)} z~j,c=∑c′exp(d(WSELFfθfθ(x~j),pc′))exp(d(WSELFfθfθ(x~j),pc))
其中, d ( W SELF f θ f θ ( x ~ j ) , p c ) d\left(\mathbf{W}_{\text{SELF}}^{f_\theta} f_\theta(\tilde{x}_j), \mathbf{p}_c\right) d(WSELFfθfθ(x~j),pc) 是嵌入无标签样本和每个原型 p c \mathbf{p}_c pc 之间的余弦相似度。
给定一个新的嵌入查询向量 x ^ q \hat{x}_q x^q,标签推理模块计算 x ^ q \hat{x}_q x^q 属于每个优化后的原型 p ~ c \tilde{\mathbf{p}}_c p~c 的概率为:
p ( y = c ∣ x ^ q ) = exp ( d ( W SELF f θ f θ ( x ^ q ) , p ~ c ) ) ∑ c ′ exp ( d ( W SELF f θ f θ ( x ^ q ) , p ~ c ′ ) ) (22) p(y = c | \hat{x}_q) = \frac{\exp\left(d\left(\mathbf{W}_{\text{SELF}}^{f_\theta} f_\theta(\hat{x}_q), \tilde{\mathbf{p}}_c\right)\right)}{\sum_{c'} \exp\left(d\left(\mathbf{W}_{\text{SELF}}^{f_\theta} f_\theta(\hat{x}_q), \tilde{\mathbf{p}}_{c'}\right)\right)} \tag{22} p(y=c∣x^q)=∑c′exp(d(WSELFfθfθ(x^q),p~c′))exp(d(WSELFfθfθ(x^q),p~c))(22)
3.2.4. Loss generation
在获取查询集样本属于每个原型的概率后,使用负对数概率损失优化 SelfNet。损失函数的计算公式为:
J
(
θ
)
=
−
log
p
(
y
=
c
∣
x
^
q
)
J(\theta) = -\log p(y = c | \hat{x}_q)
J(θ)=−logp(y=c∣x^q)
=
−
log
[
exp
(
d
(
W
SELF
f
θ
f
θ
(
x
^
q
)
,
p
~
c
)
)
∑
c
′
exp
(
d
(
W
SELF
f
θ
f
θ
(
x
^
q
)
,
p
~
c
′
)
)
]
=
−
d
(
W
SELF
f
θ
f
θ
(
x
^
q
)
,
p
~
c
)
+
log
∑
c
′
exp
(
d
(
W
SELF
f
θ
f
θ
(
x
^
q
)
,
p
~
c
′
)
)
(23)
= -\log \left[\frac{\exp\left(d\left(\mathbf{W}_{\text{SELF}}^{f_\theta} f_\theta(\hat{x}_q), \tilde{\mathbf{p}}_c\right)\right)}{\sum_{c'} \exp\left(d\left(\mathbf{W}_{\text{SELF}}^{f_\theta} f_\theta(\hat{x}_q), \tilde{\mathbf{p}}_{c'}\right)\right)}\right] \tag{23} = -d\left(\mathbf{W}_{\text{SELF}}^{f_\theta} f_\theta(\hat{x}_q), \tilde{\mathbf{p}}_c\right) + \log \sum_{c'} \exp\left(d\left(\mathbf{W}_{\text{SELF}}^{f_\theta} f_\theta(\hat{x}_q), \tilde{\mathbf{p}}_{c'}\right)\right)
=−log
∑c′exp(d(WSELFfθfθ(x^q),p~c′))exp(d(WSELFfθfθ(x^q),p~c))
=−d(WSELFfθfθ(x^q),p~c)+logc′∑exp(d(WSELFfθfθ(x^q),p~c′))(23)
我们将在算法 1 中总结 SelfNet 的训练策略伪代码。
4. Experiments
在本节中,我们在两个广泛使用的少样本分类基准数据集上进行了实验,以评估 SelfNet 的有效性。首先,我们介绍所使用的数据集以及 SelfNet 的一些重要实现细节。然后,我们将提出的 SelfNet 的性能与几种当前最先进的方法进行比较。最后,我们进行了各种消融实验,以说明不同超参数对实验结果的影响。
4.1. Datasets and implementation details
4.1.1 数据集
我们的实验在两个流行的少样本分类基准数据集上进行,包括 miniImageNet 和 tieredImageNet。miniImageNet 是 ILSVRC-12 38 ImageNet 数据集的一个子集,包含 100 个类别,每个类别有 600 张图像。我们采用 Ravi 和 Larochelle 23 提出的划分方法,其中 64 个类别用于训练,16 个类别用于验证,20 个类别用于测试。数据集中所有图像的尺寸为 84 × 84 像素。tieredImageNet 也是 ILSVRC-12 ImageNet 数据集的一个子集。与 miniImageNet 相比,tieredImageNet 是一个更大规模的数据集,包含 34 个大类的 608 个小类。我们采用 30 提出的划分方法,其中 34 个大类被划分为训练(20 类,351 小类)、验证(6 类,97 小类)和测试(8 类,160 小类)。每个类别的平均图像数量为 1281。同样,所有图像被调整为 84 × 84 像素。
4.1.2 实现细节
在本工作中,我们使用一个 12 层的 ResNet(ResNet12)作为特征嵌入模块的主干网络。ResNet12 包括 4 个残差块,每个残差块包含 3 个 3 × 3 的卷积层,每个卷积层后接一个 BatchNorm 层、一个 LeakyReLU(0.1)激活层和一个 2 × 2 的最大池化层。每个残差块中的卷积核数量分别为 64、160、320 和 640。最后,使用平均池化生成维度为 640 的嵌入特征。在半监督场景下,我们采用 30 中的相同划分: 对于 miniImageNet,标注数据与未标注数据的比例为 40% 和 60%;对于 tieredImageNet,标注数据与未标注数据的比例为 10% 和 90%。按照最新的方法,我们采用两阶段策略来训练我们的网络,即预训练阶段和元训练阶段。
在预训练阶段,我们在大规模训练数据上预训练 CNN 用于特征提取,使用 SGD 训练模型。初始学习率为 0.1,每 10 个 epoch 将学习率减半。在微调或元训练阶段,我们采用情景化训练过程。在每次迭代中,从训练集中随机采样 5 个类别。从每个类别的标注部分中采样 k 张图像作为支持集,从每个类别的未标注部分中采样 m 张图像作为无标签集。查询集由每个类别的标注部分剩余数据中采样 15 张图像组成。与预训练阶段类似,模型使用 SGD 进行训练,初始学习率为 0.001,每 10 个 epoch 将学习率减半。
4.2. Comparison with the State-of-the-arts
在本节中,我们将 SelfNet 的实验结果与当前最先进的方法进行了比较。在实验中,我们将比较的方法分为三类:归纳方法(inductive methods)、传递方法(transductive methods)和半监督方法(semi-supervised methods)。表 1、表 2 和表 3 分别展示了在 miniImageNet 和 tieredImageNet 数据集上的 5-way 1-shot 和 5-way 5-shot 分类的准确率。可以看出,在所有情况下,我们的方法均能够与当前最先进的方法取得具有竞争力的性能。
4.2.1. Compared with the inductive methods.
我们将 SelfNet 与当前基于归纳的几种方法进行了比较,包括 MAML、RelationNet、MatchingNet、ProtoNet、TapNet、LFD-ProtoNet、AdaResNet、CAN 和 FEAT。MAML 被提出为一种通用的优化算法,可以用于任何基于梯度下降优化技术的模型。RelationNet 通过学习一个可迁移的深度矩阵来计算两张图像之间的相似性。ProtoNet 将每个类别的均值特征视为类别原型,并根据查询点到每个类别原型的距离进行分类。CAN 设计了一个元学习器,用于计算支持集和查询集之间的交叉注意力图,这有助于突出目标对象区域并增强特征的辨别力。LFD-ProtoNet 使用 LFDA 来降低 CNN 输出的维度。
在归纳设置下的结果如表 1 所示。可以看出,通过结合半监督子空间学习和伪标签策略,SelfNet 在很大程度上超越了上述归纳方法,表明使用未标注样本辅助网络学习确实可以提高分类模型的性能。具体来说,在 5-way 1-shot 设置下,SelfNet 和 LFD-ProtoNet 的分类准确率分别为:在 miniImageNet 上为 76.28% 对比 72.81%,在 tieredImageNet 上为 85.01% 对比 74.17%。在 5-way 5-shot 设置下,SelfNet 和 LFD-ProtoNet 的分类准确率分别为:在 miniImageNet 上为 87.94% 对比 84%,在 tieredImageNet 上为 89.72% 对比 83.73%。尽管 LFD-ProtoNet 声称通过 LFDA 特征提取步骤学习到了更好的子空间,但在少样本场景中,我们每个类别通常只有
k
k
k 个样本(通常
k
≤
5
k \leq 5
k≤5)。由于缺乏标注样本,LFD-ProtoNet 倾向于找到一个对标注样本过拟合的嵌入子空间,导致生成的原型存在偏差。相比之下,SelfNet 使用标注和未标注样本构建投影矩阵,这不仅利用了标注信息,还保留了所有样本(包括标注和未标注样本)的全局结构,从而在少样本学习中进一步缓解了数据稀缺问题。
表 1. 在 miniImageNet 和 tieredImageNet 数据集上归纳设置下的 5-way 1-shot 和 5-shot 分类准确率。
注意:“-” 表示未报告的结果。所有结果均基于 600 个测试任务的平均值,且报告了 95% 置信区间。加粗的数值表示最高的准确率。
4.2.2. Compared with the transductive methods.
以下基于传递推理的方法用于与 SelfNet 进行比较:TPN、TEAM、BD-CSPN、ICI、CAN + T 和 Transductive Fine-tuning。TPN 是一种典型的基于标签传播的少样本学习方法,也是第一个将传递推理应用于少样本学习的框架。TPN 引入了一个图构建模块,以利用支持集和查询样本的流形结构,然后采用标签传播算法将标签从支持集传播到查询集。ICI 关注如何更有效地利用无标签样本来训练分类器。ICI 提出了一个实例可信度推理(Instance Credibility Inference, ICI)方法,利用无标签样本的分布支持,并基于所提出的 ICI 方法衡量的可信度选择伪标签数据。BD-CSPN 是一种在传递设置下的原型校正方法,旨在找到与同类别所有样本具有最大余弦相似度的期望原型,并在网络中引入了一个减少偏差(包括类内偏差和类间偏差)的模块。CAN + T 是 CAN 与传递推理的结合。Transductive Fine-tuning 为少样本学习提供了一种直接的微调基准。
如表 2 所示,在 miniImageNet 和 tieredImageNet 数据集上,SelfNet 始终在所有现有的传递方法中表现出显著优势。具体来说,在更具挑战性的 1-shot 设置下,SelfNet 比使用相同主干网络的 ICI 和 CAN + T 在 miniImageNet 上的准确率高出 8% 以上。此外,尽管 BD-CSPN 和 Transductive Fine-tuning 使用了更宽的主干网络(WRN-28-10),SelfNet 仍分别比它们高出 6% 和 7%。其原因是,传递方法仅使用查询集作为无标签数据来优化网络,也就是说,查询集和无标签集是相同的,而 SelfNet 额外拥有一个无标签集。因此,SelfNet 能够从无标签集中获取更多的信息,从而缓解传统少样本学习中面临的数据稀缺问题。
表 2. 在 miniImageNet 和 tieredImageNet 数据集上传递设置下的 5-way 1-shot 和 5-shot 分类准确率。
注意:“-” 表示未报告的结果。所有结果均基于 600 个测试任务的平均值,并报告了 95% 置信区间。加粗的数值表示最高的准确率。
4.2.3. Compared with the semi-supervised methods.
在半监督设置下,我们将 SelfNet 与以下最新方法进行比较:Masked Soft K-Means 是第一个使用未标注数据优化原型的半监督方法。LST 采用自学策略(self-taught learning)预测未标注样本的伪标签,并选择可信的样本来增强支持集。TransMatch 是一种用于半监督少样本学习的迁移学习框架,能够利用额外未标注实例中的信息。TPN-semi 和 ICI-semi 分别是 TPN 和 ICI 的半监督版本。
表 3 对比了 SelfNet 与现有半监督方法在 miniImageNet 和 tieredImageNet 数据集上的性能。在 5-way 5-shot 设置下,SelfNet 相较于 Masked Soft K-Means,在 miniImageNet 和 tieredImageNet 上分别实现了 23.6% 和 19.8% 的显著提升。这当然部分归因于我们使用了更深的主干网络。然而,当使用相同的主干网络时,在 miniImageNet 上,SelfNet 相较于 LST 和 ICI-semi,在 5-way 5-shot 设置下分别提升了 7.3% 和 4.8%。这些结果进一步表明了 SelfNet 的鲁棒性,并证明了寻找更好的子空间对于少样本分类的益处,尽管每种方法都声称拥有独特的半监督框架。
表 3. 在 miniImageNet 和 tieredImageNet 数据集上半监督设置下的 5-way 1-shot 和 5-shot 分类准确率。
注意:“-” 表示未报告的结果。所有结果均基于 600 个测试任务的平均值,并报告了 95% 置信区间。加粗的数值表示最高的准确率。
4.3. Ablation study
我们进行了多种消融实验,以说明不同超参数对实验结果的影响。以下为在 miniImageNet 数据集上,针对 5-way 5-shot 设置下的各种超参数性能报告。
无标签样本数量的影响:在元测试阶段,无标签样本的数量是影响 SelfNet 性能的重要参数。表 4 显示了不同数量的无标签样本下的结果。可以看到,随着额外无标签数据的增加,所有模型的性能都得到了提升,证明了额外的无标签集确实能为分类任务提供有用信息。然而,SelfNet 在所有比较的方法中表现出最高的准确率,这验证了所提出的模型在利用额外无标签样本以提升少样本学习方法性能方面的优越性。
表 4. 在 miniImageNet 数据集上,不同数量额外未标注样本的 5-way 1-shot 和 5-way 5-shot 分类准确率。
注意:“-” 表示未报告的结果。所有结果均基于 600 个测试任务的平均值,并报告了 95% 置信区间。加粗的数值表示最高的准确率。
SelfNet 子空间维度的影响:我们研究了 SelfNet 子空间维度
d
d
d 对 5-way 5-shot miniImageNet 实验的影响。在额外特征投影步骤后,我们选择了 5、10、15、20、25、30、50、70、100 和 120 作为子空间维度。正如图 2 所示,当其他参数固定时,miniImageNet 数据集上 5-way 5-shot 任务的最优子空间维度为 100。在我们的模型中,实践中采用
d
=
100
d = 100
d=100。
图 2. 在 miniImageNet 数据集上,不同子空间维度下的 5-way 5-shot 分类性能。
权衡参数 β \beta β 的影响:权衡参数 β \beta β 控制在额外特征投影矩阵构建阶段标注样本与未标注样本的比例。我们选择 β \beta β 从 0、0.25、0.5、0.75 和 1 中进行实验,其结果如图 3 所示。当 β = 0 \beta = 0 β=0 时,SELF 模块退化为 LFDA;当 β = 1 \beta = 1 β=1 时,SELF 模块退化为 PCA。合理的 β \beta β 值可以在构建额外特征投影矩阵阶段合理分配标注样本和未标注样本的比例。如图 3 所示,当 β = 0 \beta = 0 β=0 时,分类器仅考虑标注样本,这会因为标注样本严重不足而导致最低的测试准确率。当 β = 1 \beta = 1 β=1 时,所有标注和未标注样本都被用于构建特征投影矩阵,但模型未能利用标注样本的标签信息。相反,当 β = 0.5 \beta = 0.5 β=0.5 时,模型可以获得最佳准确率。在这种情况下,新的子空间不仅保留了全局数据结构(包括支持集数据和未标注数据),还利用了支持样本的标签信息。
图 3. 在 miniImageNet 数据集上,不同权衡参数
β
\beta
β 下的 5-way 5-shot 分类性能。
干扰类的影响:参考 39 28 30,我们进一步研究了干扰类的影响,其中许多额外的未标注样本来自与支持类不同的类。具体来说,我们从剩余的类别中额外采样 H H H 个类别(与支持类不相交)作为干扰类,每个类别有 M M M 张图像。这些干扰图像与感兴趣的 N N N 类的未标注图像一起被加入到未标注集中(总共 M N + M H MN + MH MN+MH 张未标注图像)。在表 5 中的实验中,我们设置 N = 5 N = 5 N=5 和 H = 1 H = 1 H=1,即 5 个标注类和 1 个干扰类,同时训练时 M = 20 M = 20 M=20,测试时 M = 100 M = 100 M=100。可以看出,由于引入了干扰类,所有比较的半监督方法的分类准确率均有所下降。然而,SelfNet 仍然以较大优势超过其他半监督方法。
表 5. 在 miniImageNet 数据集上,包含干扰类的 5-way 1-shot 和 5-way 5-shot 分类准确率。
所有结果均基于 600 个测试任务的平均值,并报告了 95% 置信区间。加粗的数值表示最高的准确率。
T-SNE 可视化:为了更好地展示子空间的有效性,我们进行了 t-SNE 可视化。考虑到在没有额外未标注样本和 SELF 投影模块的情况下,SelfNet 会退化为 ProtoNet,因此我们选择 ProtoNet 作为基线模型,其嵌入空间的数据分布与 SelfNet 相同。我们在 ResNet-12 主干网络下,采用 5-way 5-shot 设置。在图 4 中,我们可视化了 tieredImageNet 数据集上相同元测试任务中 ProtoNet 和 SelfNet 的数据分布。左图展示了 ProtoNet(嵌入空间)的可视化,右图展示了 SelfNet(投影空间)的可视化。每个类别的原型用星形标记。
图 4. ProtoNet(嵌入空间)和 SelfNet(投影空间)的 t-SNE 可视化。
从图 4 中可以观察到,由于标注样本的不足,ProtoNet 倾向于找到一个对标注样本过拟合的嵌入空间,导致原型存在偏差。相比之下,SelfNet 使用标注和未标注样本构建特征映射矩阵,保留了所有样本(包括标注和未标注样本)的全局结构,同时利用了标签信息,从而生成了更准确的原型。SelfNet 的数据分布比 ProtoNet 更紧凑。这是因为 SELF 投影模块使得 SelfNet 能够获得一个“最优”子空间,该子空间最大化了类间散布并最小化了类内散布。SelfNet 相对于基线模型 ProtoNet 的性能提升高达 7.2%,验证了子空间的有效性。
5. Conclusion
本文提出了一种简单而有效的半监督少样本学习方法,称为半监督局部 Fisher 判别网络(SelfNet)。这是一种新型的半监督少样本学习方法,将元学习和子空间学习的优点结合在一起。在子空间学习阶段,采用改进的 SELF 算法,借助支持集和额外的未标注集构建投影矩阵。通过这种额外的特征映射,SelfNet 能够获得一个“最优”子空间,该子空间最大化类间散布并最小化类内散布,从而显著缓解数据稀缺问题。此外,SelfNet 预测未标注样本的伪标签,并使用可信的伪标签数据扩充原始支持集,使得所提出的半监督框架更加可靠。广泛的实验表明,该方法在两个流行的少样本学习基准数据集上取得了令人印象深刻的性能,证明了半监督子空间学习在有限训练样本中挖掘判别信息的优势。与 LFD-ProtoNet 类似,我们的研究进一步表明,在深度学习时代,“影子”子空间学习领域的进步仍然是增强当前深度网络进行少样本学习的重要途径,无论是在监督还是半监督环境中。
Z. Zhu, H. Ji, W. Zhang, Nonlinear gated channels networks for action recognition, Neurocomputing 386 (2020) 325–332, https://doi.org/10.1016/j.neucom.2019.12.077. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
I. Lauriola, A. Lavelli, F. Aiolli, An introduction to deep learning in natural language processing: models, techniques, and tools, Neurocomputing 470 (2022) 443–456, https://doi.org/10.1016/j.neucom.2021.05.103. ↩︎
J. Kotia, A. Kotwal, R. Bharti, R. Mangrulkar, Few shot learning for medical imaging, 2021. 10.1007/978-3-030-50641-4_7. ↩︎
A. Medela, A. Picon, C.L. Saratxaga, O. Belar, V. Cabez, C., Vision, Few shot learning in histopathological images: reducing the need of labeled data on biological datasets, in: 2019 IEEE 16th International Symposium on Biomedical Imaging (ISBI), 2019, pp. 1860–1864, https://doi.org/10.1109/ISBI.2019.8759182. ↩︎
C. Tian, X. Zhu, Z. Hu, J. Ma, A transfer approach with attention reptile method and long-term generation mechanism for few-shot traffic prediction, Neurocomputing 452 (2021) 15–27, https://doi.org/10.1016/j.neucom.2021.03.068. ↩︎
G. Qi, J. Luo, Small data challenges in big data era: a survey of recent progress on unsupervised and semi-supervised methods, IEEE Trans. Pattern Anal. Mach. Intell. 44 (2022) 2168–2187, https://doi.org/10.1109/tpami.2020.3031898. ↩︎
J. Lu, P. Gong, J. Ye, J. Zhang, C. Zhang, Learning from very few samples: a survey, ArXiv (2020) 1–17. ↩︎
M. Li, R. Wang, J. Yang, L. Xue, M. Hu, Multi-domain few-shot image recognition with knowledge transfer, Neurocomputing 442 (2021) 64–72, https://doi.org/10.1016/j.neucom.2021.01.123. ↩︎
Q. Sun, Y. Liu, T.S. Chua, et al. Meta-transfer learning for few-shot learning, 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019. 10.1109/CVPR.2019.00049. ↩︎
Varun Kumar, Hadrien Glaude, Cyprien de Lichy, and William Campbell, A closer look at feature space data augmentation for few-shot intent classification, In Proceedings of the 2nd Workshop on Deep Learning Approaches for Low-Resource NLP (2019) 1–10. 10.18653/v1/d19-6101. ↩︎
R. Zhang, T. Che, Zoubin Ghahramani, Yoshua Bengio, and Yangqiu Song, MetaGAN: an adversarial approach to few-shot learning, in: In Proceedings of the 32nd International Conference on Neural Information Processing Systems (NIPS’18), 2018, pp. 2371–2380. ↩︎ ↩︎
T.M. Hospedales, A. Antoniou, P. Micaelli, A.J. Storkey, Meta-learning in neural networks: a survey, IEEE Trans. Pattern Anal. Mach. Intell. (2021) 1–20, https://doi.org/10.1109/TPAMI.2021.3079209. ↩︎ ↩︎
C. Finn, P. Abbeel, S. Levine, Model-agnostic meta-learning for fast adaptation of deep networks, in: Proceedings of the 34th International Conference on Machine Learning, 2017, pp. 1126–1135. ↩︎ ↩︎
Adam Santoro, Sergey Bartunov, Matthew Botvinick, Daan Wierstra, and Timothy Lillicrap. Meta-learning with memory-augmented neural networks, In Proceedings of the 33rd International Conference on International Conference on Machine Learning (ICML’16). 48 (2016) 1842–1850. https://dl.acm.org/doi/10.5555/3045390.3045585. ↩︎ ↩︎ ↩︎
T. Munkhdalai, H. Yu, Meta networks, Proceedings of Machine Learning Research (ICML’2017). (2017) 2554-2563. ↩︎ ↩︎ ↩︎
O. Vinyals, C. Blundell, T. Lillicrap, K. Kavukcuoglu, D. Wierstra, Matching networks for one shot learning, in: In Proceedings of the 30th International Conference on Neural Information Processing Systems (NIPS’16), 2016, pp. 3637–3645, https://doi.org/10.1109/CVPR.2016.95. ↩︎ ↩︎ ↩︎
J. Snell, K. Swersky, R. Zemel, Prototypical networks for few-shot learning, in: In Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS’17), 2017, pp. 4080–4090, https://doi.org/10.1109/iceiec49280.2020.9152261. ↩︎ ↩︎ ↩︎
Mukaiyama, Kei, Issei Sato, and Masashi Sugiyama, LFD-ProtoNet: Prototypical network based on local fisher discriminant analysis for few-shot learning, arXiv preprint arXiv:2006.08306. (2020). ↩︎ ↩︎ ↩︎
A. Rajendra Kurup, M. Ajith, M. Martínez Ramón, Semi-supervised facial expression recognition using reduced spatial features and Deep Belief Networks, Neurocomputing 367 (2019) 188–197, https://doi.org/10.1016/j.neucom.2019.08.029. ↩︎
Q. Gao, Y. Huang, X. Gao, W. Shen, H. Zhang, A novel semi-supervised learning for face recognition, Neurocomputing 152 (2015) 69–76, https://doi.org/10.1016/j.neucom.2014.11.018. ↩︎
X. Li, Q. Sun, Y. Liu, Q. Zhou, S. Zheng, T.-S. Chua, et al., Learning to self-train for semi-supervised few-shot classification, Adv. Neural Inf. Process. Syst. 32 (2019) 10276–10286. ↩︎ ↩︎ ↩︎
J. Kim, T. Kim, S. Kim, C.D. Yoo, Edge-labeling graph neural network for few-shot learning, CVPR (2019) 11–20, https://doi.org/10.1109/cvpr.2019.00010. ↩︎ ↩︎ ↩︎
S. Ravi, H. Larochelle, Optimization as a model for few-shot learning, ICLR 5th Int. Conf. Learn. Represent. ICLR 2017 - Conf. Track Proc. (2017) 1–11. 10.5220/0010243202360242. ↩︎ ↩︎ ↩︎
M. Lichtenstein, P. Sattigeri, R. Feris, R. Giryes, L. Karlinsky, TAFSSL: task-adaptive feature sub-space learning for few-shot classification, Lect. Notes Comput. Sci. (Including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics) 12352 (2020) 522–539, https://doi.org/10.1007/978-3-030-58571-6_31. ↩︎
F. Sung, Y. Yang, L. Zhang, T. Xiang, P.H.S. Torr, T.M. Hospedales, Learning to compare: relation network for few-shot learning, CVPR Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit. (2018) 1199–1208, https://doi.org/10.1109/cvpr.2018.00131. ↩︎ ↩︎
S.W. Yoon, J. Seo, M.J. Tapnet, Neural network augmented with task-adaptive projection for few-shot learning, in: International Conference on Machine Learning. PMLR, 2019, pp. 7115–7123, https://doi.org/10.1109/ijcnn52387.2021.9534467. ↩︎
H.J. Ye, H. Hu, D.C. Zhan, F. Sha, Few-shot learning via embedding adaptation with set-to-set functions, Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit. (2020) 8805–8814, https://doi.org/10.1109/cvpr42600.2020.00883. ↩︎
Y. Liu, J. Lee, M. Park, S. Kim, E. Yang, S.J. Hwang, Y. Yang, Learning to propagate labels: Transductive propagation network for few-shot learning, ICLR 7th Int. Conf. Learn. Represent. ICLR 2019. (2019) 1–14. ↩︎ ↩︎ ↩︎
J. Liu, L. Song, Y. Qin, Prototype Rectification for Few-Shot Learning, Lect. Notes Comput. Sci. (Including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics). 12346 LNCS (2020) 741–756. 10.1007/978-3-030-58452-8_43. ↩︎
M. Ren, E. Triantafillou, S. Ravi, J. Snell, K. Swersky, J.B. Tenenbaum, H. Larochelle, R.S. Zemel, Meta-learning for semi-supervised few-shot classification, ICLR 6th Int. Conf. Learn. Represent. ICLR 2018 - Conf. Track Proc. (2018) 1–15. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Y. Wang, L. Zhang, Y. Yao, Y. Fu, How to trust unlabeled data Instance Credibility Inference for Few-Shot Learning, IEEE Trans. Pattern Anal. Mach. Intell. (2021) 1–14, https://doi.org/10.1109/TPAMI.2021.3086140. ↩︎
V. Garcia, J. Bruna, Few-shot learning with graph neural networks, ICLR 6th Int. Conf. Learn. Represent. ICLR 2018 - Conf. Track Proc. (2018) 1–13. ↩︎
M. Sugiyama, Local fisher discriminant analysis for supervised dimensionality reduction, ACM Int. Conf. Proc. Ser. 148 (2006) 905–912, https://doi.org/10.1145/1143844.1143958. ↩︎ ↩︎
S. Wold, K. Esbensen, P. Geladi, Principal component analysis, Chemometr. Intell. Lab. Syst. 2 (1–3) (1987) 37–52, https://doi.org/10.1016/0169-7439(87)80084-9. ↩︎
R.A. Fisher, The use of multiple measurements in taxonomic problems, Ann. Eugenics 7 (2) (1936) 179–188, https://doi.org/10.1111/j.1469-1809.1936.tb02137.x. ↩︎
X. He, P. Niyogi, Locality preserving projections, Adv. Neural Inf. Process. Syst. 16 (16) (2004) 153–160. https://dl.acm.org/doi/10.5555/2981345.2981365. ↩︎
K. He, X. Zhang, S. Ren. Deep Residual Learning for Image Recognition Kaiming, in: Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2016: pp. 770–778. ↩︎
O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A.C. Berg, L. Fei-Fei, ImageNet large scale visual recognition challenge, Int. J. Comput. Vis. 115 (2015) 211–252, https://doi.org/10.1007/s11263-015-0816-y. ↩︎
Z. Yu, L. Chen, Z. Cheng, et al., Transmatch: A transfer-learning scheme for semi-supervised few-shot learning, in: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 12853–12861, https://doi.org/10.1109/cvpr42600.2020.01287. ↩︎