研究背景
现在的object detector无论是one-stage还是two-stage,通常都是先生成一组具有分类score的bbox集,然后通过NMS进行后处理来去除同一目标上面的重复bbox。在NMS中,FCOS之前一般使用cls score对bbx进行排序,这损害了检测性能,因为cls score并不总是很好的表示bbox的好坏。为了解决这个问题,之前要么多预测一个IoU分数,要么预测一个centerness score(FCOS),然后将其乘以cls score,将最后的结果作为NMS的排序依据。这些方法可以缓解分类分数与目标定位精度之间的不匹配问题。然而,它们是次优的,因为将两个不完美的预测相乘可能会导致更差的秩基。此外,增加一个额外的network branch来预测 localization score并不是一个优雅的解决方案,而且会增加额外的计算负担。
基于上述说明,作者提出了他的问题:难道非得预测一个额外的 localization score?我们难道不能将其合并到cls score中吗?也就是说,预测一个localization-aware或IoU-aware的cls (IACS:IoU-aware classification score),该分数同时表示某个对象类的存在和生成的包围框的定位精度。
解决思路
IACS-IoU-Aware Classification Score
IACS定义为分类得分向量的标量元素,其中ground-truth类标签位置的值为预测边界框与其ground truth之间的IoU,其他位置为0。如图所示,不是学习预测一个bounding box的类标签(a),而是学习IoU-aware分类得分(IACS)作为检测分数,融合了目标存在置信度和定位精度(b)。

Varifocal Loss
本文设计了一种新的Varifocal Loss来训练密集目标检测器来预测IACS。由于它的灵感来自Focal Loss,这里也简要回顾一下Focal Loss。Focal Loss的设计是为了解决密集目标检测器训练中前景类和背景类之间极度不平衡的问题。定义如下。

本文介绍了一种新的目标检测方法,提出IACS(IoU-aware classification score),将分类和定位精度融合,通过设计VarifocalLoss解决类别不平衡问题。研究者采用星形框特征表示和边界框精炼,构建了VarifocalNet,优化了FCOS架构。实验结果显示了显著的性能提升。
最低0.47元/天 解锁文章
1306

被折叠的 条评论
为什么被折叠?



