Generalized Focal Loss论文个人理解

原创

已于 2024-01-23 13:45:16 修改 · 1.7k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

于 2024-01-11 16:37:14 首次发布

论文地址：Generalized Focal Loss: Towards Efficient Representation Learning for Dense Object Detection

论文解决问题

研究人员最近更加关注边界框的表示(representation)及其定位质量估计（LQE，本论文中指的是IoU score），导致该领域取得了令人鼓舞的进展。具体来说，边界框表示被建模为简单的狄拉克δ分布，该分布在过去几年中被广泛使用。在 FCOS 中，当 LQE 与分类置信度相结合（通常是相乘）作为Non_max_suppression中排序的最终分数时，预测额外的定位质量（例如IoU score或Centerness score）会带来检测精度的持续提高。尽管取得了巨大的成功，但我们在密集检测器的现有实践中观察到这些表示（分类、定位和 LQE）存在以下三个问题：

训练和推理之间 LQE 和分类分数的使用不一致

$图 1$ 论文中阐述，如图1a所示，在最近的密集检测器中，LQE和分类分数通常是独立训练的，但在推理过程中综合利用（例如乘法）。目前，LQE 的监督仅分配给正样本 [18]、[20]、[42]，这是不可靠的（只有正样本计算box_loss），因为负样本可能有机会获得无法控制的更高质量的预测（图 2）。这两个因素导致训练和测试之间存在差距，并可能降低检测性能，例如，在 NMS 期间，具有随机高质量分数的负实例可能排在具有较低质量预测的正实例之前。
$图 2$ 注意yolov8中的是NMS排序分数是conf，conf是cls中最大的那个，并不是conf * iou。
```
conf, j = cls.max(1, keepdim=True)
x = torch.cat((box, conf, j.float(), mask), 1)[conf.view(-1) > conf_thres]

x = x[x[:, 4].argsort(descending=True)[:max_nms]]  # sort by confidence and remove excess boxes

boxes, scores = x[:, :4] + c, x[:, 4]  # boxes (offset by class), scores
i = torchvision.ops.nms(boxes, scores, iou_thres)  # NMS
```
边界框的不灵活表示
广泛使用的边界框表示可以看作目标框坐标的狄拉克δ分布。然而，它没有考虑数据集中的模糊性和不确定性（见图3中图形边界不清晰）。尽管最近的一些工作]将框建模为高斯分布，但捕获边界框位置的真实分布过于简单。事实上，真实分布可以更加任意和灵活，而不需要像高斯函数那样对称。
$图 3$
缺乏可靠 LQE 的明确指导
许多先前的作品探索了LQE。例如，YOLO家族首先采用Objectness来描述定位质量，其定义为预测框和真实框之间的交并集（IoU）。此后，IoU在IoU-Net、IoU-aware、PAA、GFL和VFNet中被进一步探索并证明是有效的。最近，FCOS和ATSS引入了Centerness，即到物体中心的距离程度，以抑制低质量的检测结果。一般来说，上述方法都有一个共同的特点，即它们都是基于普通的卷积特征，例如点、边界或区域的特征（见图4a、4b、4c、4d、4e、4f和4g）来估计定位质量。不幸的是，这些抽象的卷积特征无法具有推断 LQE scores的明确含义，而只是由定位质量信号隐式监督，从而使其可靠 LQE 的效率较低。

$图 4$

论文解决方案(因为yolov8中使用了DFL，会结合介绍一下)

Improved Representations

For object classification representation，我们建议将其与 LQE 分数合并为单个统一的表示：
Classification -> Classification-IoU Joint Representation
下面的 $\mathbf{J}$ 就是预测框标签的分类分数， $\mathbf{y}$ 就是真实框标签的分类分数
为了解决上述训练和测试阶段之间的不一致问题，我们提出了联合表示 $\mathbf{J}=[J_1,J_2,\ldots,J_m]$ （m 表示类别总数）的定位质量（即 IoU 分数）和分类分数（称为“Classification-IoU Joint Representation”），其supervision软化了标准的one-hot类别标签，并且导致可能的浮点向量 $\mathbf{y}=[y_1,y_2,\ldots,y_m]$ 。给定一个对象类别标签 $c\in\{1,2,\ldots,m\}$ , y 满足
$\left.y_i=\left\{\begin{array}{ll}\mathrm{IoU}(B_{pred},B_{gt}),&\text{if }i=c;\\0,&\text{otherwise},\end{array}\right.\right.$ 其中 $\mathrm{IoU}(B_{pred},B_{gt})$ 表示预测边界框 $B_{pred}$ 和真实框 $B_{gt}$ 之间的 IoU。具体来说， $y = 0$ 表示负样本的质量分数为0， $0<y\leq1$ 表示正样本的质量分数为IoU分数 $y$ 。(原先的真实标签的分类分数一般是{0, 1}, 现在将正样本的对应的真实标签的分类分数变为 $\mathrm{IoU}(B_{pred},B_{gt})$ ，负样本的对应的真实标签的分类分数变为0。这个yolov8介绍的跟这个差不多，yolov8中的在经过TAA正负样本标签分配后，原始的target_scores正样本的真实标签的分类分数乘以weights，负样本的真实标签的分类分数是0(可以见yolov8下面截取代码)) 。对于多类别，作者采用带有 sigmoid 运算符 $\sigma(\cdot)$ 的多重二元分类。为了简单起见，将 sigmoid 的输出标记为 $\sigma$ 。请注意，如图1b所示，训练时，J 受到质量焦点损失（QFL）的监督，推理时，直接作为NMS 分数，这大大减少了训练和推理之间的 LQE 和对象分类的不一致。
```
# Normalize
# 设定一个动态权重，更加关注那些与真实目标对齐良好且重叠程度较高的预测框
# 这个动态权重由overlaps和align_metric决定，那些align_metric和overlaps小的预测框，它们对应的target_scores也小
# 这样求解bce_loss(分类损失)的时候相对来说会变小，这样模型在训练过程中就不会过多关注那些align_metric和overlaps小的预测框了
# 注意align_metric是跟预测分类分数和ciou都有关，这样模型在预测的时候，分类分数和iou会保持一致性，尽可能的不会存在分类分数低，而iou高的情况。
align_metric *= mask_pos
pos_align_metrics = align_metric.amax(axis=-1, keepdim=True)  # b, max_num_obj
pos_overlaps = (overlaps * mask_pos).amax(axis=-1, keepdim=True)  # b, max_num_obj
norm_align_metric = (align_metric * pos_overlaps / (pos_align_metrics + self.eps)).amax(-2).unsqueeze(-1)
target_scores = target_scores * norm_align_metric
```
For bounding box representation，我们建议通过直接学习连续空间上的离散概率分布来表示框位置的任意分布（在本文中表示为“一般分布”），而不引入任何其他更强的先验（例如，高斯）：学习到的任意分布提供了对真实数据本质的复杂性进行建模的灵活性，不仅可以预测精确的边界框回归，还可以反映信息丰富的潜在不确定性估计
Dirac delta -> General Distribution Representation
作者采用该位置(在yolov8中是anchor points)到边界框四个边的相对偏移量(anchor points到bbox的距离)作为回归目标。边界框回归的传统操作将回归标签 $y$ 建模为 $\delta(x-y)$ 狄拉克分布，其中满足 $\int_{-\infty}^{+\infty}\delta(x-y)\mathrm{d}x=1$ ，并且通常通过全连接层实现。更正式地说，恢复 $y$ 的积分形式如下（不好意思，高数还给老师了，忘记怎么推的）：
$y=\int_{-\infty}^{+\infty}\delta(x-y)x\mathrm{d}x$ 作者提出直接学习没有先验知识的基础一般分布 $P (x)$ 。给定标签 $y$ 的范围，其中最小 $y_0$ 和最大 $y_n$ $(y_0\leq y\leq y_n,n\in\mathbb{N}^+)$ ，我们可以通过下面的计算公式从模型( $\hat{y}$ 也满足 $y_0\leq \hat{y}\leq y_n$ ）中获得估计值 $\hat{y}$ 。(这个 $P (x)$ 就是 $y_0$ ~ $y_n$ 之间的概率分布)。
$\hat{y}=\int_{-\infty}^{+\infty}P(x)x\mathrm{d}x=\int_{y_0}^{y_n}P(x)x\mathrm{d}x.$