You Only Look One-level Feature

最新推荐文章于 2022-04-17 00:09:37 发布

原创最新推荐文章于 2022-04-17 00:09:37 发布 · 293 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #神经网络

目标检测笔记专栏收录该内容

5 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

动机

此前一般认为，FPN的成功之处在于进行了多级特征的融合，这引发了一系列人工设计或者NAS搜索更加复杂融合方法的研究，如EfficientDet中的BiFPN。遗憾的是，这种观念忽视了FPN分治的功能，这就导致很少有研究研究这两个收益对FPN的成功贡献究竟如何，也一定程度上阻碍了目标检测领域新的进展。

FPN的再思考

这篇论文就是针对FPN在单阶段检测器中这两个收益的。作者在RetinaNet的基础上通过解耦多尺度特征融合和分治功能设计了实验。具体而言，将FPN视作一个多进多出（Multiple-in-Multiple-out，MiMo）编码器，它从骨干网络编码多尺度特征并且为解码器即检测head提供特征表示。作者对MiMo（多进多出）、单进多出（SiMo）、多进单出（MiSo）和单进单出（SiSo）编码器进行了对比实验，结果如下图。

这些实验结果表明两个事实：
第一，C5特征图上其实就包含了检测各种尺度目标的足够的上下文信息，这就导致SiMo编码器可以获得相当不错的效果；
第二，多尺度特征融合带来的收益要远远小于分治策略带来的收益，因此多尺度特征融合在FPN不是最关键的功能。

YOLOF

Dilated Encoder

(a)表示特征的接受域只能覆盖有限的尺度范围;
(b)表明放大后的尺度范围使特征能够覆盖大对象而忽略小对象;
©表示所有尺度都可以覆盖有多个接受域的特征。

使用空洞残差块进行多尺度特征融合，得到上图c。

Decoder

采用了retanet的主要设计，它由两个并行的任务专用头组成:分类头和回归头。我们只添加了两个小的修改。首先，我们遵循DETR中FFN的设计，并使两个头的卷积层数不同。回归头部有4个卷积，后面是批处理归一化层和ReLU层，而分类头部只有2个。第二，我们遵循Autoassign，并为回归头上的每个锚添加一个隐式对象性预测(没有直接监督)。所有预测的最终分类分数是通过将分类输出与相应的隐式对象性相乘生成的。

Uniform matching

为了充分发挥 FPN 功效，一般会从 scale 和 spatial 两个方面着手进行设计，scale 用于处理不同尺度大小的 gt bbox 应该属于哪些输出层负责，而 spatial 用于处理在某个输出特征图上哪些位置才是最合适的正样本点。不同的 bbox 正负样本分配策略对最终性能影响极大。
一般来说，由于自然场景中，大的gt box比小的gt box诱导出更多的正锚点，这导致了正锚点的不平衡问题。最终性能就会偏向大物体，导致整体性能较差。YOLOF 算法采用单尺度特征图输出，锚点的数量会大量的减少(比如从 100K 减少到 5K)，导致了稀疏锚点，如果不进行重新设计，会加剧上述现象。为此作者提出了新的均匀匹配策略，核心思想就是不同大小物体都尽量有相同数目的正样本。

因此，作者设计了一个均衡匹配（Uniform Matching）策略，即对每个GT框而言，只采用最接近的k个anchor作为正anchor，这就能如上图一样保证每个GT框不论尺寸大小都有相同数目的正anchor。平衡的正样本确保所有的GT框平等地参与训练。在Max-IoU匹配的基础上，作者在均匀匹配中设置IoU阈值，忽略大IoU(>0.7)的负锚点和小IoU(<0.15)的正锚点。