【论文阅读】Few-Shot Learning With Multi-Granularity Knowledge Fusion and Decision-Making

在这里插入图片描述

多粒度知识融合与决策
引用:Su Y, Zhao H, Zheng Y, et al. Few-shot Learning with Multi-Granularity Knowledge Fusion and Decision-Making[J]. IEEE Transactions on Big Data, 2024.
论文地址:下载地址
github:https://github.com/fhqxa/MGKFD

Abstract

  Few-shot learning (FSL) 是一项具有挑战性的任务,旨在从少量标记样本中对新类别进行分类。许多现有模型将类别的结构知识作为先验知识嵌入,以增强FSL对数据稀缺的适应能力。然而,这些方法在连接类别结构知识与有限视觉信息方面表现不足,而视觉信息在FSL模型性能中起着决定性作用。本文提出了一种结合多粒度知识融合与决策的统一FSL框架(MGKFD),以克服这一局限性。我们旨在同时探索视觉信息和结构知识,以互为补充的方式增强FSL。一方面,我们通过多粒度类别知识强关联全局和局部视觉信息,以探索图像内部和类别之间的关系,从有限图像中生成特定的多粒度类别表示。另一方面,引入一种权重融合策略,将多粒度知识与视觉信息整合起来,做出FSL分类决策。这使得模型能够从有限的标记样本中更高效地学习,并能够推广到新类别。此外,针对不同程度的错误预测,基于结构知识构建了一种层次化损失函数,以最小化分类损失,其中对更大程度的错误分类给予更高的惩罚。实验结果表明,在三个基准数据集上,MGKFD相较于多个先进模型具有明显优势。

1. INTRODUCTION

  少样本学习(FSL) 是机器学习领域的一个重要且热门的研究课题,其目标是在少量样本的情况下识别新类别 1。由于仅有一个或少量样本,这对机器学习的泛化能力提出了挑战。2000年,Miller等人首次提出了从极少样本中学习的问题 2。此后,越来越多的研究工作投入到FSL的探索中。近年来,FSL模型已经广泛应用于计算机视觉、自然语言处理和数据分析等多个研究领域 3 4

  FSL的关键目标是建立基础类别知识与新类别识别之间的联系,并使用少量数据有效地识别新类别。在FSL的方法中,度量学习是主要的研究方向之一,其致力于寻找一个最佳的相似性度量空间,以弥合基础类别与新类别之间的差距 5。例如,Matching Network 6、Prototypical Network 7 和 Relation Network 8 等经典FSL模型,分别利用余弦距离、欧几里得距离或可学习模块来构建基础类别与新类别的公共度量空间。

  此外,Zhang等人 9 发现,仅计算两个全局特征之间的距离可能会受到复杂背景和类别内部外观变化较大的影响。因此,他们利用地球移动距离(Earth Mover’s Distance)最小化两个样本间局部特征的匹配成本。有别于单尺度建模,一些学者进一步从多尺度角度进行研究,以挖掘更多潜在信息 10 11 12。例如,Jiang等人 10 提取多尺度特征并学习样本之间的多尺度关系用于FSL。同样,提出了一个双相似度网络(Bi-similarity Network),通过两种相似性度量获取判别性特征图 11。这些模型无论从单尺度还是多尺度出发,意在挖掘数据中的视觉信息,但它们无法满足FSL发展的需求。它们未能充分捕获和利用数据结构知识中潜在的信息。

  数据的结构知识通常涉及不同类别之间的内在关系和依赖性,这能够弥补FSL中的数据稀缺问题 13 14。例如,层次类别结构(hierarchical class structure)展示了细粒度与粗粒度类别之间的多粒度关联,为FSL提供了重要的外部知识指导 15 16 17。Li等人 17 利用类别层次结构作为先验知识构建了一个粗到细的FSL分类器。同样,Zhang等人 18 采用层次结构设计了一个可解释的基于决策树的分类器。然而,尽管这些模型取得了一定的成果,但它们未能在视觉数据和结构知识之间建立一致的联系,特别是在有限数据的情况下。这些研究主要集中于如何将结构信息嵌入到FSL中,而未充分利用数据的视觉信息,而视觉信息在增强FSL中起着同等重要的作用。

  在本文中,我们提出了一种基于多粒度知识融合与决策(MGKFD)的新型少样本学习(FSL)模型,该模型将来自图像和类别层次的视觉信息和结构知识进行连接。我们致力于同时挖掘丰富的视觉信息和结构知识,并以互为补充的方式服务于FSL。具体而言,MGKFD主要分为两部分:多粒度特征提取以及多粒度知识融合与决策。

  对于一幅图像,该模型显式表示类别特定和详细的信息,其中全局特征是图像内容的粗略表示,而局部特征更擅长捕捉图像中物体的区分性信息。同样地,在层次类别结构中,粗粒度类别具有更高的泛化性能,而细粒度类别通常具有较少的特征多样性。因此,我们最初将全局特征表示为粗粒度类别的表示,而将局部特征视为细粒度类别的表示。这使得我们能够同时研究图像内部和类别间的关系,从而在少量样本图像中生成清晰的类别表示。

  接下来,我们融合多粒度知识以指导FSL分类决策。粗粒度类别的表示和判别性知识与细粒度类别强相关,这对于细粒度类别的学习具有重要价值。通过这种方式,我们引入了一种融合策略,将多粒度知识整合用于最终的FSL决策。此外,我们提出了一种层次化损失函数,用于最小化分类错误。该损失函数根据由结构知识引导的错误分类程度分配不同的分类风险,而不是假设分类错误是等权重的通用损失函数。总而言之,我们旨在显式利用结构知识,结合有限的视觉信息,从而最终提高FSL任务的模型性能。

  为了验证MGKFD的性能,我们在多个公开数据集上进行了大量实验。实验结果从不同的角度证明了我们的模型相较于几种先进的FSL模型的有效性。本文的主要贡献总结如下:

  1. 我们提出了一种新的少样本学习框架,通过显式连接丰富的类别结构知识与有限的视觉信息,用于FSL分类决策。
  2. 我们设计了一种融合策略,以整合多粒度知识,从而降低比粗到细决策方式的跨层错误传递风险。
  3. 提出了一种层次化损失函数,区别于假设分类错误等权重的通用损失函数,该损失函数为不同程度的分类错误分配不同的权重。

  在后续章节中,我们在第二部分简要回顾了相关工作;接着在第三部分介绍了所提模型;随后在第四部分介绍了实验设置;在第五部分报告并分析了实验结果;最后在第六部分总结了本文的结论以及未来研究方向。

2. RELATED WORK

  在本节中,我们将简要介绍与我们研究相关的工作,包括少样本学习以及基于结构知识的少样本学习。

2.1. Few-Shot Learning

少样本学习(FSL)模型通常基于元学习(meta-learning),旨在从少量数据中学习可迁移的知识以应用于新任务 19。现有模型可以分为三种类型:

  第一,数据增强是一种有效的方法,可以增加训练样本或增强数据特征 5。它通过增加数据量来解决数据不足的问题。

  第二,一些学者专注于优化模型以解决少样本学习问题,而无需数据增强,这被称为基于优化的方法(optimization-based method)。其目标是在少量支持样本的情况下,快速在线更新模型,例如MAML 20 和 MetaOptNet 20

  第三种方法是度量学习(metric learning),其目标是学习查询图像与支持图像之间的相似性 8。例如,FSL中首先采用了余弦距离和欧几里得距离来测量图像相似性 6 7。此外,Kang等人 21 利用了图像内部和图像之间的关系模式来测量其相似性。另外,为了避免复杂背景和较大的类别内部外观变化的影响,Zhang等人 9 使用地球移动距离(Earth Mover’s Distance)通过最小匹配成本来测量图像相似性。

  与单尺度度量学习不同,许多学者进一步从多尺度的角度构建FSL模型 10 11 12。在特征方面,Jiang等人 10 提出了一种多尺度关系生成网络,用于学习样本之间的多尺度关系。在度量角度,提出了双相似度网络(Bi-similarity Network),通过两种相似度度量获取判别性特征图 11。无论是从单尺度还是多尺度的角度,这些模型都专注于利用数据中潜在的视觉信息,但它们无法挖掘类别之间潜在的结构知识。

2.2. Few-Shot Learning Based on Structural Knowledge 基于结构知识的少样本学习

  类别中固有的结构知识提供了强大的类别语义信息,许多研究利用层次类别结构应用于少样本学习(FSL),得益于其在层次分类中的优异性能 22 23。层次结构主要根据WordNet 14 中的多粒度语义关联构建。它展示了细粒度与粗粒度类别在多个粒度层次上的关联性,可以作为指导FSL过程的重要外部资源 24 25

  在特征表示学习方面,Zhu等人 16 提出了由层次结构引导的多粒度情景对比学习。一些模型利用层次结构来辅助FSL分类器的构建。例如,Li等人 15 通过聚类层次结构为大规模FSL分类学习可迁移的视觉特征。此外,文献 17 中通过层次结构实现了粗到细的FSL分类器。同样,Zhang等人 18 设计了一种基于决策树的可解释分类器。

  尽管上述模型取得了令人鼓舞的成功,但它们未能将类别结构知识与有限的视觉信息建立起联系。对于少样本学习而言,有限视觉信息的学习对模型性能起着决定性作用。本文的目标是建立类别的视觉信息与结构知识之间的强连接与协同作用,以增强FSL。在类别结构知识的引导下,我们整合了全局与局部视觉信息,以探索图像内部和类别间的关系,从而使模型能够学习到更具区分性的类别信息。通过整合视觉信息与类别结构知识来引导分类决策,模型能够有效地从有限的标注样本中学习,并在新类别上实现更高的泛化精度。

  不同于“粗到细”分类器,融合策略能够缓解跨层错误传递问题。此外,这些模型通常假设目标学习中遇到的分类错误是等同的,仅考虑预测是否正确。而在实际应用中,不同的分类结果应具有不同的分类风险。因此,在结构知识的引导下,提出了一种层次化损失函数,根据层次结构分配不同的权重来最小化分类错误的程度。

  总之,我们致力于同时研究视觉信息和结构知识,以互为补充的方式来增强小样本学习。

3. PROPOSED MODEL

  在本节中,我们详细介绍了MGKFD,框架如图1所示。MGKFD主要分为两个部分:首先,我们将全局特征划分为五个局部特征,并根据层次结构获取多粒度特征。其次,我们融合多粒度知识与丰富的视觉信息,用于相似性度量和FSL分类决策。此外,还建立了一种层次化损失函数,以最小化分类错误。

在这里插入图片描述
图 1. MGKFD 框架:MGKFD 主要由两部分组成:多粒度特征提取和多粒度知识融合与决策。参数 l u lu lu r u ru ru m i d mid mid l b lb lb r b rb rb 分别表示左上、右上、中间、左下和右下区域的局部特征; S ( c ) S^{(c)} S(c) S ( f ) S^{(f)} S(f) 分别表示粗粒度和细粒度的相似性。

3.1. Multi-Granularity Feature Extraction 多粒度特征提取

  在本节中,我们结合全局特征与局部特征,以及层次类别结构中不同粒度类别的相关性,获取多粒度特征。

  许多现有的少样本学习方法直接利用卷积神经网络(Convolutional Neural Network, CNN)提取的特征进行图像相似性度量,并取得了有效的结果。然而,这些方法存在以下两个缺点: 1) CNN提取的特征代表图像的混合全局特征,这些特征模糊且不适合细粒度分类。 2) 混合全局特征会降解并丢失图像的局部特征,难以区分图像之间的细微差异。 我们从数据集 tieredImageNet 26 中随机提取了10,000张图像,并分析了图像中主要目标的位置分布,如图2(a)所示。主要目标主要分布在图像的中间,其余分布在四周。因此,我们从全局特征中重新提取局部特征,将全局特征均匀裁剪为五个区域,包括左上(lu)、右上(ru)、中间(mid)、左下(lb)和右下(rb)区域,如图2(b)所示。每个区域的长度为全局长度的一半。

在这里插入图片描述
图 2. 图像中目标中心位置的分布:参数 l u lu lu r u ru ru m i d mid mid l b lb lb r b rb rb 分别表示左上、右上、中间、左下和右下局部区域。

  对于少样本任务,在元学习框架下采用“ N N N-way K K K-shot”的训练任务策略,该策略由支持集和查询集组成。支持集包含从训练集 D train D_{\text{train}} Dtrain 中随机选择的 N N N 个类别的 K K K 个标记样本,其余 K ′ K' K 个样本构成 N N N 个类别的查询集。 最初,令支持集为 S = { ( x 1 , y 1 ) , … , ( x n s , y n s ) } S = \{(x_1, y_1), \dots, (x_{n_s}, y_{n_s})\} S={(x1,y1),,(xns,yns)},查询集为 Q = { ( x ~ 1 , y ~ 1 ) , … , ( x ~ n q , y ~ n q ) } Q = \{(\tilde{x}_1, \tilde{y}_1), \dots, (\tilde{x}_{n_q}, \tilde{y}_{n_q})\} Q={(x~1,y~1),,(x~nq,y~nq)},其中 x n s x_{n_s} xns x n q x_{n_q} xnq 分别为支持集和查询集中的样本数量。对于 1-shot ( K = 1 K=1 K=1) 的设置,每个支持样本的特征代表其所属类别的特征。假设 x ~ i \tilde{x}_i x~i x j x_j xj 分别为查询集 Q Q Q 和支持集 S S S 中的任意样本,定义特征提取的 CNN 为 F ϕ F_\phi Fϕ,其中 ϕ \phi ϕ 为 CNN 的参数。将 x ~ i \tilde{x}_i x~i x j x_j xj 输入到 F ϕ F_\phi Fϕ,可得到全局特征:
X ~ i ( g ) = F ϕ ( x ~ i ) , X j ( g ) = F ϕ ( x j ) , (1) \tilde{X}_i^{(g)} = F_\phi(\tilde{x}_i), \quad X_j^{(g)} = F_\phi(x_j),\tag{1} X~i(g)=Fϕ(x~i),Xj(g)=Fϕ(xj),(1)
其中 X ~ i ( g ) \tilde{X}_i^{(g)} X~i(g) 是查询样本 x ~ i \tilde{x}_i x~i 的全局特征, X j ( g ) X_j^{(g)} Xj(g) 是第 j j j 个支持类别的全局特征。对于 K K K-shot ( K > 1 K > 1 K>1) 的设置,我们使用结构化全连接层 9 来为每个类别的所有样本学习更优的全局类别特征。

  然后,我们将全局特征裁剪为五个局部区域,以提取局部特征,如下所示:
X ~ i ( l ) = [ L ~ i ( l u ) ; L ~ i ( r u ) ; L ~ i ( m i d ) ; L ~ i ( l b ) ; L ~ i ( r b ) ] , X j ( l ) = [ L j ( l u ) ; L j ( r u ) ; L j ( m i d ) ; L j ( l b ) ; L j ( r b ) ] , (2) \begin{aligned} \tilde{X}^{(l)}_i &= [\tilde{L}^{(lu)}_i ; \tilde{L}^{(ru)}_i ; \tilde{L}^{(mid)}_i ; \tilde{L}^{(lb)}_i ; \tilde{L}^{(rb)}_i], \\ X^{(l)}_j &= [L^{(lu)}_j ; L^{(ru)}_j ; L^{(mid)}_j ; L^{(lb)}_j ; L^{(rb)}_j], \tag{2} \end{aligned} X~i(l)Xj(l)=[L~i(lu);L~i(ru);L~i(mid);L~i(lb);L~i(rb)],=[Lj(lu);Lj(ru);Lj(mid);Lj(lb);Lj(rb)],(2)
其中, X ~ i ( l ) \tilde{X}^{(l)}_i X~i(l) 是查询样本 x ~ i \tilde{x}_i x~i 的局部特征, X j ( l ) X^{(l)}_j Xj(l) 表示第 j j j 个支持类别的局部特征。 L ~ i ( l u ) \tilde{L}^{(lu)}_i L~i(lu) L ~ i ( r u ) \tilde{L}^{(ru)}_i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值