Generalized Focal Loss 论文笔记

最新推荐文章于 2025-04-25 22:09:02 发布

原创

最新推荐文章于 2025-04-25 22:09:02 发布 · 932 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #神经网络

本文针对one-stage检测器在分类、定位和质量估计中存在的问题，提出了新的表示方法。作者将分类-IoU联合表示，并引入了质量焦点损失（QFL）和分布焦点损失（DFL）。QFL解决了连续标签上的Focal Loss问题，而DFL则通过回归任意分布来更好地聚焦边界框预测。由此，作者提出了通用焦点损失（GFL），在训练和推理中直接使用quality estimation的score进行NMS，避免了分支相乘的问题。实验表明，这种方法提高了检测器的性能。

Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

论文链接： https://arxiv.org/abs/2006.04388

一、Problem Statement

目前热门的One-stage detector的head末端通常会有三个representation: classification, localization, quality estimation.作者发现了两个问题：

在训练和推理阶段不一致地使用 quality estimation 和 classification。在以下两方面体现出来:
1). 用法不一致： classification 和 quality estimation 在训练的时候各自训练，但是在推理阶段的时候，结合在了一起。
2). 对象不一致。借助Focal Loss的力量，分类分支能够使得少量的正样本和大量的负样本一起成功训练，但是质量估计通常就只针对正样本训练。那么，对于one-stage的检测器而言，在做NMS score排序的时候，所有的样本都会将分类score和质量预测score相乘用于排序，那么必然会存在一部分分数较低的“负样本”的质量预测是没有在训练过程中有监督信号的，也就是说对于大量可能的负样本，他们的质量预测是一个未定义行为。这就很有可能引发这么一个情况：一个分类score相对低的真正的负样本，由于预测了一个不可信的极高的质量score，而导致它可能排到一个真正的正样本（分类score不够高且质量score相对低）的前面。
在localization的时候，在复杂场景中，边界框的表示具有很强的不确定性，而现有的框回归本质都是建模了非常单一的狄拉克分布，非常不flexible。

二、Direction

解决以上问题，作者提出了新的representations。

对于第一个问题，作者把 quality estimation 和 class prediction的分支合起来,形成了一个新的representations (classification-IoU joint representation)。这样的话，classification branch 不再是分类的score，而是改为质量预测的score。因此Focal Loss 在连续的labels上是不适用的。作者因此提出QFL（Quality Focal Loss) 解决 Focal Loss continous labels问题。
对于第二个问题，作者直接回归一个任意分布来建模框的表示。当然，在连续域上回归是不可能的，所以可以用离散化的方式，通过softmax来实现即可。这里面涉及到如何从狄拉克分布的积分形式推导到一般分布的积分形式来表示框。提出的DFL（Distribution Focal Loss）使得网络能够快速地聚焦到标注位置附近的数值，使得他们概率尽可能大

三、Method

GFL (Generalized Focal Loss) = QFL (Quality Focal Loss) + DFL (Distribution Focal Loss)

回顾以下Focal Loss 的基本形式;

-(1-p_t)^{\gamma}log(p_t), \qquad p_t = \left\{ \begin{matrix} p_t, \qquad \qquad y=1\\ 1-p_t, \qquad y = 0 \end{matrix} \right.

1. QFL (Quality Focal Loss)
因为不再是离散类别分类问题，而是一个连续的IoU score, 因此对于multi-class采用sigmoid 函数 $\sigma$
分别对原始Focal Loss的两个部分进行修改：
(1). Cross entropy part:
把 $log(p_t)$

最低0.47元/天解锁文章