
用于小样本图像分类的关联对齐
引用:Afrasiyabi A, Lalonde J F, Gagné C. Associative alignment for few-shot image classification[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part V 16. Springer International Publishing, 2020: 18-35.
论文地址:下载地址
论文代码:https://github.com/ArmanAfrasiyabi/associative-alignment-fs
Abstract
小样本图像分类旨在从每个“新类别”仅有的少量样本中训练模型。本文提出了一种关联对齐的思想,利用部分基础数据,通过将新类的训练实例与基础训练集中密切相关的样本对齐,来扩展新类的有效训练集规模。这种方法通过添加额外的“相关基础”样本到少量的新类样本中,从而允许更具建设性的微调。我们提出了两种关联对齐策略:1)一种度量学习损失,用于最小化相关基础样本与特征空间中新类样本中心点之间的距离;2)基于Wasserstein距离的条件对抗性对齐损失。在四个标准数据集和三个骨干网络上的实验表明,结合我们的基于中心点的对齐损失,在物体识别、细粒度分类和跨域适应的5-shot学习中,分别比现有技术取得了4.4%、1.2%和6.2%的绝对精度提升。
1 Introduction
尽管最近取得了进展,但在较少监督下对新概念进行泛化仍然是计算机视觉中的一项挑战。在图像分类的背景下,小样本学习旨在获得一个模型,使其在仅有极少训练样本时也能学习识别新类别的图像。
元学习 1 2 3 4 是实现这一目标的可能方法,它通过从大量有标注的数据(即“基础”类别)中提取通用知识,训练出一个模型,之后能够仅凭少量样本学习对“新”概念进行分类。这是通过反复从大量基础图像池中抽取小的子集来实现的,实际上是模拟了小样本场景。标准的迁移学习也被探索为一种替代方法 5 6 7。这种方法的思想是先在基础样本上对网络进行预训练,然后在新类样本上微调分类层。有趣的是,Chen 等人 5 证明,这种方法的表现与更复杂的元学习策略相当。然而,在对新类进行微调时,需要冻结网络的特征编码器部分,否则网络会过拟合到新类样本上。我们推测,这会限制性能,如果整个网络都能够适应新类别,可能会带来性能提升。

图 1:除了少量的新类别样本(菱形)外,使用大量相关的基础类别(圆形)有助于构建更具区分性的模型:(a)直接使用相关的基础类别可能无法很好地捕捉新类别;而(b)在特征空间中对齐相关基础类别和新的训练实例可以为分类提供更相关的训练数据。图表是通过在 ResNet-18 特征嵌入上应用 t-SNE8 生成的,展示了应用中心对齐前(a)和后(b)的效果。点按类别进行颜色编码。
在本文中,我们提出了一种方法,能够在防止过拟合的同时,不限制网络在小样本图像分类中的学习能力。我们的方法以标准的迁移学习策略 5 作为起点,随后利用与少量新类样本最相似的基础类别(在特征空间中),有效地提供额外的训练样本。我们称这些相似的类别为“相关基础”类别。当然,相关基础类别与新类别代表了不同的概念,因此直接在它们上进行微调可能会让网络混淆(见图1-(a))。本文的关键思想是在特征空间中将新样本与相关基础样本对齐(图1-(b))。
为此,我们提出了两种可能的关联对齐解决方案:1)中心点对齐,受ProtoNet 3 的启发,通过显式地缩小类内变化来获益,训练过程更稳定,但假设类分布能够被单模态很好地逼近。对抗性对齐,受WGAN 9 的启发,不做这种假设,但由于评估网络的存在,训练复杂度更高。我们通过广泛的实验表明,我们的基于中心点的对齐过程在多个标准基准上的小样本分类中达到了当前最先进的性能。类似的结果也通过我们的对抗性对齐获得,表明了我们关联对齐方法的有效性。
我们提出了以下贡献。首先,我们提出了两种在特征空间中将新类对齐到相关基础类的方法,从而能够有效地训练整个网络以进行小样本图像分类。其次,我们引入了一个强大的基线模型,该模型将标准的迁移学习 5 与一个附加的角度边距损失 10 结合在一起,并在基础类别上进行预训练时通过早停来对网络进行正则化。我们发现,这个简单的基线实际上在最佳情况下将整体准确率提高了3%。第三,我们通过广泛的实验——在四个标准数据集上,并使用三个广为人知的骨干特征提取器——证明了我们提出的基于中心点的对齐在三种场景下显著超越了当前最先进的技术:通用物体识别(在mini-ImageNet、tieredImageNet和FC100上的5-shot学习中,整体准确率分别提升1.7%、4.4%和2.1%),细粒度分类(在CUB上的提升为1.2%),以及跨域适应(从mini-ImageNet到CUB的提升为6.2%)使用ResNet-18骨干网络。
2 Related work
主要的小样本学习方法可以大致分为元学习和标准迁移学习。此外,数据增强和正则化技术(通常在元学习中使用)也被用于小样本学习。我们简要回顾了每个类别中的相关工作。值得注意的是,多个不同的计算机视觉问题,如物体计数 11、视频分类 12、运动预测 13 和物体检测 14,都被表述为小样本学习问题。在这里,我们主要关注图像分类领域的工作。
元学习 这类方法将小样本学习框定为情景训练 15 1 2 16 3 17 14 18。情景通过在训练基础类别(这些类别的样本量较大)时假装处于小样本情境下进行定义。初始化方法和度量方法是与本文相关的情景训练方案的两种变体。初始化方法 1 19 20 学习一个初始模型,该模型能够通过少量的梯度步适应少量的新样本。相比之下,我们的方法执行了更多的更新,但要求新样本与其相关基础样本之间保持对齐。度量方法 21 22 23 24 25 26 3 27 28 4 29 30 学习一个度量,旨在减少类内差异,同时在基础类别上进行训练。例如,ProtoNet 3 旨在学习一个特征空间,在该空间中,给定类的实例接近相应的原型(质心),从而实现基于距离的精确分类。我们的中心对齐策略借鉴了这种基于距离的准则,但将其用于在特征空间中匹配分布,而不是构建分类器。
标准迁移学习 这种方法的策略是先在基础类别上对网络进行预训练,然后在新样本上进行微调 5 6 7。尽管其方法简单,Chen 等人 5 最近表明,当使用深层骨干网络作为特征提取器时,这种方法可以取得与元学习相似的泛化性能。然而,他们也表明,由于过拟合的倾向,在微调时必须冻结预训练特征提取器的权重。尽管我们提出的训练过程与基础类别中的标准微调类似,但我们的方法允许训练整个网络,从而增加了所学模型的容量,同时提高了分类准确性。
正则化技巧 Wang 等人 31 提出了用于正则化目的的回归网络,通过将微调模型的参数优化为接近预训练模型来实现正则化。最近,Lee 等人 32 利用线性分类器的隐式微分与hinge loss和L2正则化应用于基于CNN的特征学习器。Dvornik 等人 33 使用网络集成来减少分类器的方差。
数据增强 另一类技术依赖于在小样本情境下的额外数据进行训练,大多数情况下遵循元学习训练程序 34 35 36 37 38 39 40 41 42 43。为此,已经提出了几种方法,包括特征幻觉(FH) 38,该方法通过学习样本之间的映射并使用辅助生成器来在特征空间中生成额外的训练样本。随后,Wang 等人 41 提出了使用GAN来实现相同的目的,从而解决了FH框架泛化能力差的问题。不幸的是,这种方法被证明存在模式崩溃的问题 36。与生成人工数据以进行增强不同,其他方法提出了利用额外的未标记数据 44 45 46 47。Liu 等人 48 提出了一种从少量标记数据向大量未标记数据传播标签的方法,类似于我们对相关基础样本的检测。我们同样依赖更多的数据进行训练,但与这些方法不同,我们的方法不需要任何新数据,也不需要生成数据。相反,我们利用已有的基础域数据,并通过微调将新类域对齐到相关的基础样本。
以前的工作也利用了基础训练数据,与我们最相关的工作是 34 和 49。Chen 等人 34 提出了使用嵌入和变形子网络来利用额外的训练样本,而我们依赖于一个单一的特征提取网络,这更易于实现和训练。与随机基础样本采样 34 通过图像空间中的新样本变形插值不同,我们提出在特征空间中借用检测到的相关类别的内部分布结构。此外,我们的对齐策略引入了额外的准则,使学习者的注意力集中在新类上,防止新类成为异常点。针对物体检测,Lim 等人 49 提出了一种使用稀疏组Lasso框架搜索相似物体类别的模型。与 49 不同,我们在小样本图像分类的背景下提出并评估了两种关联对齐方法。
从对齐的角度来看,我们的工作与Jiang 等人 50 的工作相关,该工作是在零样本学习的背景下,提出在视觉-语义结构中通过匹配词典来找到匹配概念。相比之下,我们提出了关联的基础类-新类对齐方法,并提出了两种策略来强制统一相关概念。
3 Preliminaries
假设我们有一个大型的基础数据集 X b = { ( x b i , y b i ) } i = 1 N b X_b=\{(x_b^i,y_b^i)\}_{i=1}^{N_b} Xb={(xbi,ybi)}i=1Nb,其中 x b i ∈ R d x_b^i\in\mathbb{R}^d xbi∈Rd 是第 i i i 个数据实例, y b i ∈ Y b y_b^i\in Y_b ybi∈Yb 是相应的类别标签。我们还给定了少量的新类别数据 X n = { ( x n i , y n i ) } i = 1 N n X_n=\{(x_n^i,y_n^i)\}_{i=1}^{N_n} Xn={(xni,yni)}i=1Nn,其中标签 y n i ∈ Y n y_n^i\in Y_n yni∈Yn 来自一个与基础类别集不同的新类别集 Y n Y_n Yn。小样本分类的目标是仅通过每个新类别的少量样本(例如5个甚至1个)来训练分类器。在这项工作中,我们使用了 Chen 等人5 提出的标准迁移学习策略,该策略分为以下两个阶段:
预训练阶段
学习模型是一个由特征提取器 f ( ⋅ ∣ θ ) f(\cdot|\theta) f(⋅∣θ)(由参数 θ \theta θ 表示)和线性分类器 c ( x ∣ W ) ≡ W ⊤ f ( x ∣ θ ) c(x|W)\equiv W^\top f(x|\theta) c(x∣W)≡W⊤f(x∣θ) 组成的神经网络,其中 W W W 是描述分类器的矩阵,最后通过如 softmax 之类的评分函数生成输出。该网络在基础类别集 X b X_b Xb 的样本上从头开始训练。
- 微调阶段*
为了使网络适应新类别,网络随后在来自 X n X_n Xn 的少量样本上进行微调。由于如果更新所有网络权重很可能会导致过拟合,因此在这一阶段,特征提取器的权重 θ \theta θ 被冻结,只有分类器的权重 W W W 会被更新。
4 Associative alignment
冻结特征提取器的权重 θ \theta θ 确实减少了过拟合,但也限制了模型的学习能力。在本文中,我们力求两全其美,并提出了一种在控制过拟合的同时保持模型原有学习能力的方法。我们借用了相关基础类别子集的内部分布结构, X r b ⊂ X b X_{rb} \subset X_b Xrb⊂Xb。为了处理新类别与相关基础类别之间的差异,我们提出在特征空间中将新类别对齐到相关基础类别。这种映射允许拥有更大的训练数据池,同时使这两个集合的实例更加一致。注意,与 34 相反,我们并不以任何方式修改相关基础实例:我们只是希望将新样本对齐到其相关类别实例的分布。
在本节中,我们首先描述如何确定相关基础类别。接着,我们提出本文的主要贡献:"中心点关联对齐"方法,该方法利用相关基础实例来提高新类别的分类性能。最后,我们提出了一种替代的关联对齐策略,它依赖于对抗框架。
4.1 Detecting the related bases
我们开发了一个简单但有效的过程来选择与新类别相关的一组基础类别。我们的方法将 B B B 个基础类别与每个新类关联。在 X b X_b Xb 上训练 c ( f ( ⋅ ∣ θ ) ∣ W ) c(f(\cdot|\theta)|W) c(f(⋅∣θ)∣W) 后,我们首先在 X n X_n Xn 上微调 c ( ⋅ ∣ W ) c(\cdot|W) c(⋅∣W),同时保持 θ \theta θ 不变。然后,我们定义 M ∈ R K b × K n M\in\mathbb{R}^{K_b\times K_n} M∈RKb×Kn 为一个基础类别与新类别的相似性矩阵,其中 K b K_b Kb 和 K n K_n Kn 分别是 X b X_b Xb 和 X n X_n Xn 中类别的数量。矩阵 M M M 的元素 m i , j m_{i,j} mi,j 对应于与第 i i i 个基础类别相关的样本被分类为第 j j j 个新类别的比率:
m i , j = 1 ∣ X b i ∣ ∑ ( x b l , ⋅ ) ∈ X b i I [ j = arg max k = 1 K n ( c k ( f ( x b l ∣ θ ) ∣ W ) ) ] , (1) m_{i,j}=\frac{1}{|X_b^i|}\sum_{(x_b^l,\cdot)\in X_b^i}\mathbb{I}\left[j=\arg\max_{k=1}^{K_n}\left(c_k(f(x_b^l|\theta)|W)\right)\right], \tag{1} mi,j=∣X

最低0.47元/天 解锁文章
1243






