Large Margin Few-Shot Learning

本文提出通过大边距原则增强基于度量的方法,如图神经网络和原型网络,以提高小样本学习的泛化能力。通过三元组损失等方法实现更鉴别性的度量空间,实验结果证明其有效性。

Abstract

小样本学习的关键问题是学习泛化。本文提出了一个大边距原则,以提高基于度量的方法在小样本学习中的泛化能力。为了实现这一目标,我们开发了一个统一的框架,通过增加具有较大边距距离损失函数的分类损失函数来学习更具鉴别性的度量空间。在图神经网络和原型网络两种最先进的小样本学习方法上的大量实验表明,我们的方法可以大大提高现有模型的性能。

1 Introduction

小样本学习[4]是一个非常具有挑战性的问题,因为它旨在从很少的标记例子中学习。由于数据的稀缺性,传统的端到端监督模型,如从零开始训练深度学习模型[13,10]容易导致过拟合,而数据增强、正则化等技术无法解决这一问题。

解决小样本学习的一个成功视角是元学习。与需要大量标记集进行训练的传统监督学习不同,元学习通过从大量相似任务中提取知识然后转移知识以快速适应新任务来训练分类器,该分类器可以泛化到新任务。元学习已经探索了几个方向,包括学习微调[28,5,24,17],基于序列的方法[30,22],基于度量的学习[36,12]。

基于度量的小样本学习最近吸引了很多兴趣[36,32,6,34,8,21,12,29],可能是因为它的简单和有效性。基本思想是学习一个度量,它可以在度量空间中映射接近的相似样本和距离较远的不同样本(map similar samples close and dissimilar ones distant in the metric space ),这样查询就可以很容易地分类。各种基于度量的方法,如孪生网络[12]、匹配网络[36]、原型网络[32]和图神经网络[8],在度量的学习方式上有所不同。

基于度量的方法的成功依赖于学习到一个有判别性的度量空间。 然而,由于训练任务中的数据稀缺,很难学习到一个好的度量空间。 为了充分发挥基于度量的小样本学习的潜力,我们提出了一个大边距原则,用于学习更具辨别力的度量空间。 关键的观点是,来自不同类的样本应该在度量空间中尽可能地映射到不同的位置,以提高泛化并防止过拟合。在现有的基于度量的方法中,没有强制执行大边际约束。

为了填补这一空白,我们开发了一个统一的框架来施加大的边际约束。 特别是,我们用距离损失函数——三元组损失(the triplet loss) [31] 来增强度量学习方法的线性分类损失函数【线性分类?】,以训练更多度量空间(train a more metric space)。 我们的框架简单、健壮、非常容易实现,并且可以潜在地应用于许多采用线性分类器的度量学习方法。 两种最先进的度量学习方法——图神经网络 [8] 和原型网络 [32] 的应用表明,大边际约束可以显着提高原始模型的泛化能力,而计算开销很小。 除了三元组损失之外,我们还探索了其他损失函数来强制执行大边际约束。 所有的实验结果都证实了大边距原则的有效性。

虽然在机器学习的许多领域中已经广泛地研究了大边距方法,但本文还是第一次研究它在小样本学习(元学习)中的适用性和有用性。需要注意的是,这里所考虑的小样本学习问题与基于属性的小样本[16]或零镜头学习的设置有很大的不同[15,1,7,41]。

本文的贡献包括 1) 提出了一个大边缘原则来改进基于度量的小样本学习,2) 为大边缘小样本学习开发一个有效和高效的框架,以及 3) 进行广泛的实验来验证我们的建议。

2 Large Margin Few-Shot Learning

2.1 Few-Shot Learning
2.2 Large Margin Principle

How Few-Shot Learning Works. 为了从元训练中看不到的几个例子中快速学习,模型应该在元训练中获得一些可转移的知识。在基于度量的少镜头学习[12,8,32]中,其基本思想是学习一个非线性映射fφ(·),该映射可以模拟数据样本之间的类关系,即相似样本映射到度量空间的附近点,而不相似样本映射到距离较远的点。通常,映射fφ(·)将样本xi嵌入到一个相对低维的空间中,然后由线性分类器(如softmax分类器)对嵌入点fφ(xi)进行分类。注意,softmax分类器可以被认为是神经网络中最后一个完全连接的层。通过最小化交叉熵损失来学习映射fφ(·)和分类器参数:

在这里插入图片描述
其中wj是softmax分类器的权重矩阵W的第j列对应的分类器权重向量。 不失一般性,我们省略偏差 b 以简化分析。 注意 wj 可以被认为是嵌入空间中 j 类样本的类中心。

在学习了 fφ(·) 和 W 之后,模型就可以用于测试了。 图 2(a) 展示了一个 3-way 5-shot 测试用例,其中支持样本用点表示,查询样本用叉号表示。 同一类的样本用相同的颜色表示。 我们可以看到每个类的样本都映射到相应分类器权重向量 wj 周围的集群。 但是,属于第 1 类的查询样本可能会被错误地归入第 2 类,因为 w1 和 w2 之间的边距很小。

How Can It Work Better? 由于每个训练集包含的每个类的样本很少,样本均值的标准误差较高[23]。换句话说,类平均水平可能是对真实类中心的一个较差的估计,一些样本可能不能很好地代表自己的类。因此,该模型可能无法学习一个判别度量空间。

为了缓解这个问题并提高新类的模型泛化能力,我们建议在分类器权重向量(或类中心)之间强制执行较大的边距( margin )。 这个想法是来自不同类的样本应该在度量空间中映射得尽可能远。 如图 2(b)所示,通过扩大 w1 和 w2 之间的边距,可以正确分类查询样本。 值得注意的是,大边际原则使得分类器权重向量以平衡的方式分布(图2(b)),从而导致平衡的决策边界。

2.3 Model

为了强制执行大边距约束,我们建议为分类损失函数增加一个大边际损失函数,总损失由下式给出:

在这里插入图片描述
λ是一个平衡参数。我们选择三重损失 [31] 作为大边距函数,作用于度量空间中训练样本的嵌入:

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值