【论文阅读】SelfNet: A semi-supervised local Fisher discriminant network for few-shot learning

在这里插入图片描述

SelfNet:一种用于少样本学习的半监督局部 Fisher 判别网络
引用:Feng, Rui, et al. “SelfNet: A semi-supervised local Fisher discriminant network for few-shot learning.” Neurocomputing 512 (2022): 352-362.
论文地址:下载地址

Abstract

  少样本学习通过使用小规模的带标签样本来识别新对象,近年来引起了广泛的研究兴趣。原型网络(Prototypical Network,ProtoNet)是一种简单而有效的元学习方法,用于解决这一问题。然而,在少样本场景下,数据的稀缺性通常会对原型的表示能力产生负面影响。在本文中,我们提出了一种独特的半监督少样本学习架构,称为半监督局部 Fisher 判别网络(SelfNet),它将少样本学习与子空间学习相结合。通过结合支持集和额外的未标记样本集,构建了一个特征投影模块,以实现子空间投影。此外,采用了一种伪标签策略,将具有高预测置信度的未标记样本添加到支持集中,以优化原始原型。在两个少样本分类基准数据集上的实验结果表明,SelfNet 相较于最先进的方法表现出卓越的性能,表明了利用未标记样本进行特征投影的优势。

1. Introduction

  在过去几年里,深度学习在计算机视觉、动作识别和自然语言处理等领域取得了成熟1 2。深度学习是一种需要大量标注样本的技术。然而,在实际应用中,收集足够的数据是不可行的。例如,在医学图像理解3、生物图像分析4和交通安全5等领域,数据标注的成本很高。相反,人类能够在很少的直接监督下学习新概念。受这种能力的启发,许多研究人员越来越认识到研究小样本学习(即少-shot学习)的必要性6 7。因此,近年来小样本学习的研究兴趣重新激发,并围绕小样本学习这一主题产生了大量文献。

  小样本学习旨在通过机器学习方法模仿人类,即通过少量标注样本识别新物体。为了解决这个问题,已经提出了许多方法,这些方法可以分为三类:迁移学习8 9、数据增强10 11和元学习12。迁移学习的最直观方法是微调(finetuning),其包含两个步骤:在基础类别数据上预训练基础模型;并在新类别数据上对预训练的基础模型进行微调。通常,基础模型是在大规模标注数据集(如ImageNet)上训练的。实际上,当样本极度稀缺时,传统的迁移学习不可避免地会导致过拟合,因为一个或几个标注实例不足以代表新类别的数据分布。数据增强技术可以通过扩展数据集中的样本数量来缓解这一问题,这可以通过多种方式实现:通过借用相似类别的数据来扩展训练集;利用生成对抗网络(GAN)生成新样本11。然而,由于标注样本的稀缺,转换方式有所限制,因此这种策略仍然无法完全解决过拟合问题。另一个成功的避免过拟合问题的尝试是采用元学习策略。元学习策略的核心思想是“学会学习”12。也就是说,它旨在从一组任务中学习一个有效的模型,从而提取元知识以推广到新任务。对于小样本分类,每个任务是一个具有非常少标注样本(即支持集S)和少量未见样本(即查询集Q)的数据集。我们的任务是通过使用支持集中的N×k图像,将查询集中的图像分类为N个类别(这样的少-shot任务被称为N-way k-shot,其中k表示每个类别的样本数量)。代表性的基于元学习的研究包括MAML13、MANN14、Meta Networks15、Matching Network16、Prototypical Network17和LFD-ProtoNet18等。

  ProtoNet,指的是原型网络(Prototypical Network),是一个流行的基于元学习的框架。它易于实现,但可以实现与许多复杂模型相当的识别效果。ProtoNet使用神经网络通过将输入样本映射到一个新的嵌入空间来学习非线性映射,然后计算每个类别 c c c的均值向量作为原型。实际上,ProtoNet仅考虑嵌入特征的均值向量,而忽略了数据中的流形结构,当输入数据集具有较高方差时,可能导致误分类。为了解决这个问题,Mukaiyama等人1提出了一种改进方法,名为LFD-ProtoNet,它将ProtoNet与Sugiyama的早期工作——局部Fisher判别分析(LFDA)1相结合。LFD-ProtoNet与原型网络的不同之处在于,它涉及一个特征投影矩阵,该矩阵在特征提取器 f h f_h fh之后,最小化局部类内协方差并最大化局部类间协方差。然而,当仅有少量标注样本时,这些监督方法往往会找到一个过拟合于标注样本的嵌入空间,从而导致偏置的原型。

  与收集标注数据相比,在实际应用中获得未标注数据要容易得多,成本也更低。或许我们可以通过引入未标注样本来缓解数据稀缺的问题。正如大家所熟知,半监督学习算法是在少量标注数据和大量未标注数据的组合上进行训练的,它同时提供了监督学习和无监督学习的优势。半监督技术在许多领域得到了广泛应用,如人脸识别19 20、动作识别1和目标检测1。从这个角度来看,我们或许可以使用半监督技术来解决小样本学习问题,几项研究已经证明这一策略既有效又可行21 22

  在本文中,我们提出了一种新型的半监督小样本分类方法,命名为SelfNet(半监督局部Fisher判别网络),它将小样本学习与子空间学习结合在半监督设置中。具体而言,我们引入了一个未标注集 U U U来增强支持集。对于一个元任务 S ; U ; Q S; U; Q S;U;Q,我们采用一个特征提取器,即卷积神经网络,将输入图像嵌入到潜在的特征空间 F F F中。然后,引入半监督局部Fisher判别分析(SELF)1,以获得一个特征映射矩阵,从而获得 F F F的“最优”子空间 A A A。通过这个SELF特征提取步骤,我们可以在最小化支持集类内散布矩阵的同时,最大化类间散布矩阵,保持全局数据结构(包括标注数据和未标注数据)。此外,SelfNet为未标注样本提供伪标签,通过可信的伪标签数据增强支持集,并基于扩展后的支持集计算每个类别的新原型。最后,通过计算查询样本 x x x与精炼后的原型之间的余弦相似度,来确定其类别。

  与现有方法相比,主要贡献可以总结如下:

  1. 我们提出了一种半监督小样本学习方法,名为SelfNet,它结合了元学习和子空间学习的优点。具体而言,我们的方法致力找到 F F F的“最优”子空间 A A A,从而最小化局部Fisher类内散布矩阵并最大化局部Fisher类间散布矩阵。
  2. 我们利用未标注样本来保持全局数据结构,这解决了监督方法可能因过拟合于少量标注样本而导致的问题。在标签推理阶段,SelfNet选择可信的伪标签数据来扩展支持集,从而获得更准确的原型。
  3. SelfNet可以看作是原始原型网络的推广。它可以通过相同的优化方法来求解,同时使得原型网络能够从未标注样本中学习。在半监督小样本设置下的大量实验充分表明,我们的方法能够达到与现有最先进方法相媲美的性能。

  本文其余部分的组织结构如下:第二部分简要回顾了小样本学习、带有未标注样本的小样本学习、子空间学习和局部Fisher判别分析。第三部分详细描述了所提出的SelfNet方法。第四部分在两个流行的基准数据集上评估了我们的方法,针对小样本分类任务进行了实验。最后,第五部分给出了结论。

2. Related work

2.1. Few-shot learning

  最近,元学习策略在小样本学习中得到了广泛应用。元学习策略的核心思想是“学会学习”1。与传统的监督机器学习需要大量数据集从头开始训练模型不同,元学习并不是学习如何解决特定任务,而是能够成功地学习如何解决多个任务。通过从许多相似任务中吸收先验知识,元学习旨在学习一个高效的模型,这个模型可以应用于所有任务,并进一步快速适应具有少量样本的新任务。

  基于元学习的主要工作可以分为三个方面:基于优化的方法1 23、基于模型的方法14 15、以及基于度量的方法16 17 18 24 25。一般来说,基于优化的方法认为普通的下降方法难以适应小样本设置。通过调整优化方法来完成小样本任务,从优化角度赋予模型小样本学习能力。例如,Ravi和Larochelle 23 提出了一个基于LSTM的元学习模型,可以作为其他神经网络学习器的优化算法。MAML 13被提出作为一种通用的优化算法,可以用于任何基于梯度下降优化技术的模型。

  基于模型的方法使用带有外部或内部记忆的网络。它们依赖于专门设计用于快速学习的模型,这些模型可以在少量样本上快速更新参数。Santoro等人 14 提出了一个带有记忆增强神经网络(MANN)的元学习算法来解决小样本学习问题。外部记忆存储预计能够显式记录一些信息,从而结合神经网络的长期记忆能力来实现小样本学习任务。Meta Networks 15 是另一个为任务快速泛化而设计的元学习模型。

  作为最受研究的分支,基于度量的方法旨在学习一个嵌入空间,使得同一类的样本彼此接近,不同类的样本相距较远。例如,RelationNet 25 通过学习一个可迁移的深度矩阵来计算两个图像之间的相似度。ProtoNet 17 将每个类别的均值特征视为类别原型,并根据查询点与每个类别原型的距离进行分类。其他具有代表性的研究包括Matching Network 16、TapNet 26、LFD-ProtoNet 18 和 FEAT 27

2.2. Few-shot learning with unlabeled samples

  最近的研究开始利用未标注样本进行小样本学习。根据未标注样本的来源,可以将其分为两种策略:传导小样本学习28 29 和半监督小样本学习21 22 30

2.2.1 传导小样本学习

  传统的归纳小样本学习框架基于标注的训练数据集训练模型,并逐个预测我们从未遇见过的未标注测试数据。相比之下,传导推理技术在训练模型时已经观察到了训练集和测试集。该模型尝试在组合数据集(训练+测试)中找到有用的信息,并利用这些信息来预测未标注测试样本的标签。相关文献证明,传导推理确实可以缓解数据稀缺问题。例如,TPN 28 是第一个将传导推理应用于小样本学习的框架。它构建了一个图来利用数据中的流形结构,并学习将标签从支持集传播到查询集。Wang 31 提出了一个统计方法,称为实例可信度推理(ICI),来利用未标注样本进行小样本分类。

2.2.2 半监督小样本学习

  未标注样本的来源是传导小样本学习方法与半监督小样本学习方法之间的主要区别。前者将整个查询集作为训练过程中考虑的未标注数据,而在半监督小样本学习中,使用一个额外的未标注集来辅助网络学习。在 30 中,Ren 进行了首个关于半监督小样本学习的研究。Ren 提出了三种新的半监督扩展的原型网络,利用未标注数据来细化原始原型。LST 21 采用伪标签和自训练策略来学习如何挑选和标记未标注数据。图神经网络也被用于处理半监督设置中的小样本分类问题 32 22

2.3. 子空间学习与局部Fisher判别分析(LFDA)

  在本节中,我们简要介绍子空间学习,并回顾经典的子空间方法——局部Fisher判别分析(LFDA)33。作为处理高维数据的有效工具,子空间学习方法已广泛应用于信号分析、模式分类和聚类等领域。从本质上讲,子空间学习方法旨在找到一种投影,将高维特征降到低维子空间,同时尽可能保留更多信息。代表性的方法有主成分分析(PCA)34、Fisher判别分析(FDA)35、局部保持投影(LPP)36和局部Fisher判别分析(LFDA)33。其中,作为一种监督式降维方法,LFDA结合了FDA和LPP的思想,在最大化类间距离的同时保持类内的局部结构。接下来,我们简要回顾LFDA。

  考虑一个监督分类问题, x i ∈ R d x_i \in \mathbb{R}^d xiRd ( i = 1 , 2 , . . . , N i = 1, 2, ..., N i=1,2,...,N) 是训练集中的一个 d d d维样本, y i ∈ { 1 , 2 , . . . , C } y_i \in \{1, 2, ..., C\} yi{ 1,2,...,C} 表示 x i x_i xi 的真实标签。局部类间散布和局部类内散布可以定义为:

S l w = 1 2 ∑ i , j = 1 n A l w i , j ( x i − x j ) ( x i − x j ) T (1) S_{lw} = \frac{1}{2} \sum_{i,j=1}^{n} A_{lw}^{i,j} (x_i - x_j)(x_i - x_j)^T \tag{1} Slw=21i,j=1nAlwi,j(xixj)(xixj)T(1)

S lb = 1 2 ∑ i = 1 n ∑ j = 1 n A ~ i j lb ( x i − x j ) ( x i − x j ) T (2) \mathbf{S}_{\text{lb}} = \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} \tilde{A}_{ij}^{\text{lb}} (x_i - x_j)(x_i - x_j)^T \tag{2} Slb=21i=1nj=1nA~ijlb(xixj)(xixj)T(2)

其中:

A ~ i j lw = { A i j / n c if  y i = y j = c 0 if  y i ≠ y j (3) \tilde{A}_{ij}^{\text{lw}} = \begin{cases} A_{ij} / n_c & \text{if } y_i = y_j = c \\ 0 & \text{if } y_i \neq y_j \end{cases} \tag{3} A~ijlw={ Aij/nc0if yi=yj=cif yi=yj(3)

A ~ i j lb = { A i j ( 1 n − 1 n c ) if  y i = y j = c 1 n if  y i ≠ y j (4) \tilde{A}_{ij}^{\text{lb}} = \begin{cases} A_{ij} \left( \frac{1}{n} - \frac{1}{n_c} \right) & \text{if } y_i = y_j = c \\ \frac{1}{n} & \text{if } y_i \neq y_j \end{cases} \tag{4} A~ijlb={ Aij(n1nc1)n1if yi=yj=cif yi=yj(4)

其中:

  • n n n 表示所有样本的数量。
  • n c n_c nc 表示属于类别 c c c 的样本数量。
  • A \mathbf{A} A 是亲和矩阵,定义为:
    A i j = exp ⁡ ( − ∥ x i − x j ∥ 2 σ i σ j ) , σ i = ∥ x i − x i ( t ) ∥ A_{ij} = \exp\left(-\frac{\|x_i - x_j\|^2}{\sigma_i \sigma_j}\right), \quad \sigma_i = \|x_i - x_i^{(t)}\| Aij=exp(σiσjxixj2),σi=xixi(t)。其中, x i ( t ) x_i^{(t)} xi(t) 表示 x i x_i xi 的第 t t t 个最近邻。

  然后,LFDA的目标函数可以定义为:

W L F D A = arg ⁡ max ⁡ W t r ( W T S l b W ) t r ( W T S l w W ) (5) W_{LFDA} = \arg \max_W \frac{tr(W^T S_{lb} W)}{tr(W^T S_{lw} W)} \tag{5} WLFDA=argWmaxtr(WTSlwW)tr(WTSlbW)(5)

  上述优化的目标是找到一个投影方向,使得类间散布 S l b S_{lb} Slb最大化,类内散布 S l w S_{lw} Slw最小化。我们可以通过求解以下广义特征值问题来获得优化问题(5)的解:

S l b u = λ S l w u (6) S_{lb} u = \lambda S_{lw} u \tag{6} Slbu=λSlwu(6)<

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值