Abstract.
本文引入了一个基于度量学习的小样本学习的负边缘损失,负边缘损失显著优于softmax损失,在三个标准的小样本分类基准上实现了最好效果的accuracy。这些结果与度量学习领域的普遍做法相反,普遍做法的边际为零或正。为了理解为什么负边缘损失在小样本分类中表现良好,我们从经验和理论两方面分析了训练类和新类在不同边缘下学习到的特征的可鉴别性(discriminability)。我们发现,负边缘虽然降低了训练类的特征可识别性(discriminability),但也可以避免将相同的新类的样本错误映射到多个峰值或聚类(avoid falsely mapping samples of the same novel class to multiple peaks or clusters),从而有利于新类的识别。
代码在athttps://github.com/bl0/negative-margin.few-shot
这个discriminability是啥含义?需要思考。识别能力?
Keywords: Few-shot classification · Metric learning · Large margin
loss
1 Introduction
度量学习的目标是在base classes学习一个meta-learner并且将它推广到新类。基于度量学习的方法[3,7,25]是一系列重要的元学习方法,在基类中进行度量学习,然后将学到的度量转移到新类中。例如,[3]证明,简单地使用标准softmax损失或余弦softmax损失作为基类的学习度量,可以通过在新类上学习线性分类器,实现最先进的小样本分类性能。
在度量学习领域,一个普遍的观点是标准的softmax损失不足以区分不同的训练类别。之前的一些方法将大的和正的边界整合到softmax损失[22]或余弦softmax损失[6,47],以强制真实标签类的分数比其他类的分数至少大一个边界(enforce the score of ground truth class larger than that of other classes by at least a margin)。这有助于学习具有高度区别性的深度特征,在视觉识别任务中,特别是在人脸识别任务中,性能有显著提高[6,22,47]。

因此,它激励我们在小样本分类采用这种 large-margin softmax损失来学习更好的度量。正如我们所预期的,如图1中的蓝色曲线所示,具有正边距的large-margin softmax所学习的度量在训练类别上更具有识别力,从而在训练类别的验证集上获得更高的小样本分类精度。但在小样本分类的标准 open-set 设置中,如图1中红色曲线所示,我们惊讶地发现在softmax loss中添加正margin会影响性能。
从我们的角度来看,正margin将使学习的度量对训练类别更好识别。而对于新类,正margin会将同一类的样本映射到基类中的多个峰或簇(如图3和图7所示),损害其识别能力。然后我们给了一个理论分析,在适当的假设下,新类中样本的识别能力是关于margin参数单调递减的。相反,适当的负边距可以更好地权衡新类的可分辨性和可转移性,在少镜头分类中获得更好的性能。
主要贡献如下:
- 这是第一次尝试证明带负margin的softmax损失在小样本分类中惊人地有效,这打破了margin只能被限制为正值的固有理解[6,22,47]。
- 我们提供了深刻的直观的解释和理论分析,为什么负margin适用于小样本分类。
- 提出的负margin方法在三个广泛使用的小样本分类基准上取得了最先进的性能。
2 Related Work
Few-Shot Classification.
三种代表方法:gradient-based methods, hallucination-based methods, and metric-based methods.
基于梯度的方法通过学习和任务无关的知识来解决小样本分类问题。[9,27,29,31,39]的研究重点是学习合适的模型参数初始化,使其能够在有限的标记数据和少量的梯度更新步骤的情况下快速适应新任务。另一项工作旨在学习优化器,如基于lstm的元学习器[37]和带有外部存储器的权值更新机制[28],以取代随机梯度下降优化器。然而,这些工作解决双或双层优化问题(dual or bi-level optimization problem)面临挑战,因此在大数据集上的性能不具有竞争力。最近,[1,19]通过像SVM等封闭模型(closed-form)缓解了优化问题,在大数据集的少镜头分类基准上取得了更

本文探讨了在小样本学习中使用负边缘损失的softmax损失,该方法在三个标准基准上实现了最佳准确性,优于传统的正边缘损失。研究发现,负边缘损失能够平衡新类别的可识别性和可转移性,避免将同一新类的样本映射到多个峰值,从而提高分类性能。理论分析和实验证明了负边缘在小样本分类中的优势。
最低0.47元/天 解锁文章
469

被折叠的 条评论
为什么被折叠?



