【目标检测】DetectoRS算法学习笔记

最新推荐文章于 2024-12-25 05:46:28 发布

原创

最新推荐文章于 2024-12-25 05:46:28 发布 · 2.6k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #计算机视觉 #空洞卷积 #注意力机制

这篇博客介绍了目标检测领域的最新进展，特别是DetectoRS算法，它结合递归特征金字塔(RFP)和可切换的空洞卷积(SAC)提升性能。RFP通过反馈机制增强主干网络，而SAC允许在不增加参数的情况下扩大卷积感受野。此外，还讨论了空洞卷积的作用及其在解决不同尺度物体检测中的应用。全球上下文模块和ASPP模块也被提及，用于捕获更广泛的信息并融合不同尺度的特征。

在这里插入图片描述
目标检测领域有个较新的方向：基于关键点进行目标物体检测。该策略的代表算法为：CornerNet和CenterNet
相关论文1
相关论文2

空洞卷积基础知识

空洞卷积引入了一个称为 “ 扩张率(dilation rate)”的超参数(hyper-parameter)，该参数定义了卷积核处理数据时各值的间距。保证在卷积过程中，能够不通过下采样而增加感受野，经常被用在图像分割领域当中。

空洞卷积与普通卷积的相同点在于，卷积核的大小是一样的，在神经网络中即参数数量不变，区别在于空洞卷积具有更大的感受野。

潜在问题 1：The Gridding Effect
潜在问题 2：Long-ranged information might be not relevant.
在这里插入图片描述
(a)图对应3x3的1-dilated conv，和普通的卷积操作一样，(b)图对应3x3的2-dilated conv，实际的卷积kernel size还是3x3，但是空洞为1，也就是对于一个7x7的图像patch，只有9个红色的点和3x3的kernel发生卷积操作，其余的点略过。也可以理解为kernel的size为7x7，但是只有图中的9个点的权重不为0，其余都为0。可以看到虽然kernel size只有3x3，但是这个卷积的感受野已经增大到了7x7。

在卷积神经网络中,感受野(Receptive Field)是指特征图上的某个点能看到的输入图像的区域,即特征图上的点是由输入图像中感受野大小区域的计算得到的。

Abstract

论文设计了一种新的Backbone网络，提出了递归特征金字塔，它将来自特征金字塔网络的额外反馈连接合并到自下而上的主网层中。在微观层面上，我们提出了可切换的空洞卷积，它以不同的扩张速率转换特征，并使用开关函数收集结果。结合它们可以得到DetectoRS，显著提高了目标检测的性能。在COCO测试测试中，DetectoRS实现了最先进的55.7%的Box AP, 48.5%的掩Mask AP以及 50.0%的PQ。

DetectoRS = HTC+RFP+SAC
在这里插入图片描述

1、RFP

通过将FPN的输出，进一步反馈给主干网络，实现looking and thinking twice的目的，具体过程如下：

1、将RFP的输出 $f_{i}^{1}$ 反馈进同层骨干网络，得到 $f_{i}^{2}$ ，然后利用ASPP模块对 $f_{i}^{1}$ 进行转换，得到 $R_{i}$ ，再反馈到骨干网络中；

2、最后将 $f_{i}^{1}$ 与 $f_{i}^{2}$ 利用 Fusion模块融合，得到最终的特征图；

在这里插入图片描述

为了方便RFP反馈的特征信息作为backbone中stage的输入，论文中对ResNet进行修改从而允许x与R(f)同时作为输入，ResNet通常有四个stage，每个stage包含几个相似结构的blocks，论文中只对每个stage中的第一个block进行修改：
在这里插入图片描述
将反馈回来的特征信息RFP Features通过一个1x1卷积再与第一个block的输出进行add操作作为最终输出。值得注意的是，该1x1卷积层的权重初始化为0，以确保加载预训练权重时，它没有任何实际效果与影响。

2、SAC

空洞卷积是扩大滤波器在卷积层中的感受野的有效技术。空洞卷积将0添加在普通的卷积中间，等效地将k×k滤波器的核大小扩大到k=k(k-1)(r-1)，而不增加参数的数量或计算量。同一种不同尺度的物体可以使用相同的卷积权值、设置不同的atrous rates来粗略的检测。
在这里插入图片描述

SAC模块有3个主要的组成部分：两个全局上下文模块和一个SAC组件，两个上下文模块分别添加在SAC组件的前后。这里先介绍SAC组件，使用y = Conv(x, w, r)表示权重为w，atrous rates为r，输入为x，y为输出的卷积操作，下图为普通卷积到SAC组件的转换：
在这里插入图片描述
论文中提出了一种锁定机制，将一个重量设置为w，另一个重量设置为w+∆w，主要原因为：目标检测算法大部分都采用预训练权重作为backbone的初始化，当将普通卷积转换为SAC模块时，有更大atrous rates那一层的卷积权重就会丢失。由于不同尺度的对象可以用相同的权重以不同的atrous rates的卷积层粗略地检测，所以很自然的想到用预训练模型中的权重初始化本应丢失的那一部分权重，也就是将普通卷积核的权重复制一份给SAC中有更大atrous rates的卷积核。论文中的实现使用w+∆w来表示本应丢失的权重，其中w来自预训练模型的权重，∆w用0初始化。当固定∆w=0时，作者观察到0.1%AP的下降。但是当没有锁定机制，仅有Δw的情况下，就会大大降低AP。