
该论文最新版本由阿里研究机构发表于2021年7月,截止现在2024年10月,引用数是167次。
文章目录
论文核心贡献(省流版阅读这里即可)
论文描述了一种新的损失函数——不对称损失(Asymmetric Loss,简称 ASL),它被设计用于应对多标签分类任务中的正负样本不平衡问题。
1. 多标签分类中的挑战
- 正负样本不平衡:在典型的多标签分类设置中,一张图片通常包含少量的正标签(positive labels)和大量的负标签(negative labels)。这种不平衡现象会影响优化过程。
- 梯度忽视:由于负标签的数量远多于正标签,优化过程中可能会忽视来自正标签的梯度,导致训练效果不佳。
2. 不对称损失(ASL)的介绍
- 目标:为了解决上述问题,引入了一种新的损失函数 ASL,该损失函数在处理正样本和负样本时有不同的策略。
- 策略:ASL 动态地降低简单负样本的权重,并对这些样本进行硬阈值处理(hard-thresholding),同时丢弃可能被错误标记的样本。
3. ASL 的工作原理
- 平衡概率:通过动态调整不同样本的概率,ASL 能够平衡不同样本的重要性。
- 性能提升:这种平衡机制最终转化为更高的平均精度(mAP,mean Average Precision)分数。
4. 实验结果
- 多标签数据集上的表现:在多个流行的多标签数据集(MS-COCO、Pascal VOC、NUS-WIDE 和 Open Images)上,使用 ASL 的模型达到了最新的最佳性能(state-of-the-art results)。
- 其他任务的应用:除了多标签分类之外,ASL 还可以应用于单标签分类和目标检测等其他任务。
5. ASL 的优点
- 有效性:ASL 是有效的。
- 易于实现:ASL 很容易实现。
- 无额外开销:使用 ASL 不会增加训练时间和复杂度。
6. 代码实现
- 开源项目:ASL 的实现代码可以在 GitHub 上找到:https://github.com/Alibaba-MIIL/ASL。
1. 逐步分析Asymmetric Loss的定义
在本节中,我们将首先回顾交叉熵和焦点损失。然后,我们将介绍所提出的非对称损失(ASL)的组成部分,旨在解决多标签数据集固有的不平衡性质。我们还将分析ASL梯度,提供概率分析,并提出一种方法来动态设置训练过程中损失的不对称水平。
1.1. 什么是二值交叉熵和焦点损失
Binary Cross-Entropy and Focal Loss 翻译过程就是二值交叉熵和焦点损失,如果朋友们读不习惯中文,就读英文吧。
正如在多标签分类中通常所做的那样,我们将问题简化为一系列的二元分类任务。给定K个标签,基本网络对每个标签输出一个回归概率值表示为zk。每个回归概率值都被Sigmoid函数σ(zk)独立激活。我们将yk表示为类k的标签值。总分类损失Ltot是通过聚合K个标签的二进制损失得到的:

这个公式是所有类别标签对应的损失,让我们进一步分析其中第k个类别的损失,表达如下:

- 其中y就是yk,这里把下标k省略没写出来
- 在Focal Loss当中,L+和L-的表达式如下

- 其中p= σ(z),就是网络的输出回归预测值
- γ为聚焦参数。当γ = 0时,焦点损失退化为二值交叉熵
- 通过调整γ值,可以让损失函数更关注正样本或者更关注负样本。
1.2. 非对称聚焦Asymmetric Focusing
当使用焦点损失进行多标签训练时,有一个内在的权衡:设置高γ,可以充分减轻负样本的损失贡献,但是也可能会消除来自稀少的正样本的梯度。所以我们提出解耦正样本和负样本的聚焦水平。设γ+和γ−分别为正、负聚焦参数。我们通过重新定义损失来获得非对称聚焦:

由于我们希望增加正样本的损失贡献,我们通常设置γ−> γ+。不对称聚焦解耦了正样本和负样本的衰减率。通过这种方法,我们可以更好地控制正样本和负样本对损失函数的贡献,并帮助网络从正样本中学习有意义的特征,尽管正样本很罕见。
1.3. Asymmetric Probability Shifting非对称概率偏移
当负样本占总样本数量的比值较低时,不对称聚焦减少了它们对损失的贡献。由于多标签分类中的不平衡水平可能非常高,因此这种衰减并不总是足够的。因此,我们提出了一种额外的非对称机制,即概率位移,它对非常容易的负样本进行硬阈值处理,即当负样本的概率很低时,它完全丢弃它们。让我们将移位概率pm定义为:

- 其中m成为概率边界,是一个可微调的超参数
将公式(5)带入到公式(4)中,得到公式(6)

在图二中,比较了常规的焦点损失、二值交叉熵和Probability Shifting损失的表现

从图2中可以看出,概率位移等价于将损失函数向右移动一个因子m,从而在p < m时得到L−=0。我们稍后将通过梯度分析来展示Probability Shifting机制的另一个重要特性——它也可以拒绝错误标记的负样本。
1.4. ASL损失的定义
为了定义不对称损失(ASL),我们将非对称聚焦Asymmetric Focusing和概率转移Probability Shifting的两种机制整合成一个统一的公式:

其中,在式(5)中定义了pm。ASL允许我们应用两种类型的不对称来减少容易负样本对损失函数的贡献——通过聚焦参数γ−> γ+软阈值,通过概率边际m硬阈值。
设置γ+ = 0,使正样本产生简单的交叉熵损失,并通过单个超参数γ−控制非对称聚焦的损失(L)−水平。为了实验和推广,我们仍然保持γ+的自由度。
2. 效果对比
在本节中,我们将在四个流行的多标签分类数据集上评估ASL,并将其结果与已知的最先进的技术和其他常用的损失函数进行比较。我们还将测试ASL对其他计算机视觉任务的适用性,如单标签分类和目标检测。
这里只展示了MS-COCO的结果,更多数据效果朋友们自行查看论文,因为没啥特别的,这里就不展开描述了。
2.1. MS-COCO
MS-COCO 是一个广泛应用于评估计算机视觉任务、语义分割和图像字幕的数据集,近年来已被用于评估多标签图像分类。对于多标签分类,它包含122,218张图像,80个不同类别,每张图像平均包含2.9个标签,平均正负比为: 2.9/(80-2.9)=0.0376。根据MS-COCO 的常规设置,我们报告了以下统计数据:平均平均精度(mAP)、平均每类精度(CP)、召回率(CR)、F1(CF1)和平均总体精度(OP)、召回率(OR)和F1(OF1),为总体统计数据和前3个最高分数。在这些指标中,mAP、OF1和CF1是主要指标。
在表4中,我们将ASL结果与文献中已知的最先进的方法进行了比较,对于主要指标(完整的训练细节和损失超参数在附录B中提供)。在附录C中的表8中,我们给出了所有指标的结果。我们在多标签分类中常用的架构ResNet101上显著优于以往最先进的方法,并将最高的mAP得分提高了1%以上。其他指标也显示出了改善。

训练前和输入分辨率的影响:在表5中,我们比较了使用标准的ImageNet-1K预训练和较新的ImageNet-21K预训练获得的mAP结果。我们可以看到,使用更好的预训练对结果有显著的影响,使mAP分数提高了近2%。我们还在表5中显示,将输入分辨率从448增加到640可以进一步改善结果。

- 更好的backbone可以带来更好的效果
- 更大的输入分辨率可以带来更好的效果


1万+

被折叠的 条评论
为什么被折叠?



