目标检测论文阅读:TridentNet算法笔记

文章提出了Scale-AwareTridentNetwork,通过研究感受野对目标检测的影响,特别是空洞卷积的作用,设计了一种三叉戟网络结构,包含多个具有不同感受野的并行分支。每个分支针对特定尺度的目标进行优化,通过尺度感知训练策略避免极端尺度的训练目标。在推理过程中,通过一个主分支的快速近似方法,能够在不增加额外计算成本的情况下实现性能提升。实验显示,这种方法在COCO数据集上取得了优秀的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

标题:Scale-Aware Trident Networks for Object Detection
会议:ICCV2019
论文地址:https://ieeexplore.ieee.org/document/9010716/
这篇文章是目标检测领域首次研究空洞卷积对感受野的影响,从而用于改进模型性能的文章。相比其它专注于从理论层面寻找改进的文章,本文的思路还是比较粗暴的。空洞卷积带来的感受野提升无疑是显著的,这在YOLOF中也被证实。空洞卷积和可变形卷积现在也是目标检测领域常见的trick。文章的motivation和method都不难理解,读起来也很顺畅,实验也很充分,值得学习。

Abstract

尺度变化是目标检测中的关键挑战之一。在这项工作中,我们首先提出一个控制实验来研究感受野对目标检测中尺度变化的影响。基于探究实验的发现,我们提出一种新颖的三叉戟网络(TridentNet),旨在生成具有统一表征能力的特定尺度特征图。我们构建了一个并行的多分支结构,每个分支都共享相同的变换参数,但具有不同的感受野。然后,我们使用一种尺度感知的训练方案,通过在训练时采样适当尺度的目标实例,使每个分支特定化。此外,与原始检测器相比,TridentNet的快速近似版本可以在没有任何额外参数和计算成本的情况下实现显著提升。在COCO数据集上,以ResNet-101为主干的TridentNet取得了单模型SOTA的48.4mAP。

1. Introduction

近年来有很多目标检测方法,但不论是单阶段还是两阶段的方法,都要面对一个核心问题:处理尺度变化。目标实例的尺度可以在很大的范围内变化,给检测器造成障碍,尤其是那些特别小或特别大的目标实例。
为了解决大尺度变化,一种直观的方法是利用多尺度图像金字塔,这在基于手工特征的方法和当前基于深度CNN的方法中都很流行,如图1a所示。有力的证据表明,深度检测器可以从多尺度训练和测试中受益。为了避免极端尺度的训练目标(较小/较大尺度的小/大目标),SNIP提出了一种尺度归一化方法,在每个图像尺度上选择性地训练合适大小的目标。然而,推理时间的增加使得图像金字塔方法不利于实际应用。
在这里插入图片描述
另一个研究方向是使用网络中的特征金字塔以更少的计算成本来近似图像金字塔。该思想首先是通过从邻近尺度层插值一些特征通道来构建用于目标检测的快速特征金字塔。在深度学习时代,这种近似会更加容易。SSD利用不同层的多尺度特征图,在每个特征层检测不同尺度的物体。为了弥补低层特征中语义的缺失,FPN(图1b)进一步增加了自顶向下的路径和横向连接,以融合高层特征中的丰富语义信息。然而,不同尺度目标的区域特征是从不同层的FPN主干中提取的,而FPN主干又是在不同的参数设置下生成的。这使得特征金字塔是图像金字塔一个不满意的替代方案。
图像金字塔和特征金字塔方法都有一个共同动机,即对于不同尺度的目标,模型应该具有不同的感受野。尽管效率低下,但图像金字塔充分利用了模型的表征能力,对所有尺度的目标进行平等的变换。相比之下,特征金字塔会生成多层特征,牺牲了不同尺度之间的特征一致性。这导致每个尺度的有效训练数据减少且过拟合风险更高。这项工作的目标是通过为所有尺度高效地构建具有统一表征能力的特征来实现两种方案的最佳。
本文我们提出了一种新颖的网络结构,以适应不同尺度的网络,而不是像图像金字塔那样的多尺度输入。尤其是我们用所提出的三叉戟模块来创建多个特定尺度的特征图,如图1c所示。在空洞卷积的帮助下,三叉戟模块的不同分支具有相同的网络结构,共享相同的参数,但具有不同的感受野。此外,为了避免极端尺度的训练目标,我们利用尺度感知的训练方案,使每个分支特定于给定的与其感受野相匹配的尺度范围。最后,由于整个多分支网络都是共享权重的,我们可以在推理过程中只用一个主分支来近似整个TridentNet。这种近似只会带来微不足道的性能下降。因此,它可以在不影响推理速度的情况下实现比单尺度baseline显著的提升。这一性质使得TridentNet比其它方法更适合实际应用。
综上所述,我们的贡献如下:

  • 我们展示了感受野在尺度变化中作用的研究结果。据我们所知,我们是第一个设计控制实验来研究目标检测任务上的感受野的。
  • 我们提出了一种新的三叉戟网络来处理目标检测中的尺度变化问题。通过多分支结构和尺度感知训练,TridentNet能够生成具有统一表征能力的特定尺度特征图。
  • 通过我们的共享权重的三叉戟块设计,我们提出了只有一个主分支的快速近似方法TridentNet Fast,在推理过程中不引入额外的参数和计算成本。
  • 我们在标准的COCO基准上通过充分的消融研究验证了我们方法的有效性。与SOTA方法相比,我们提出的方法使用ResNet-101主干在单模型中实现了48.4mAP。

2. Related Work

深度目标检测器。 回顾了一些两阶段和单阶段目标检测器。
处理尺度变化的方法。 回顾了一些图像金字塔和特征金字塔方法。不同于使用不同层的特征,我们提出的TridentNet通过多个并行分支生成特定尺度的特征,从而使我们的网络对不同尺度的目标具有相同的表征能力。
空洞卷积。 空洞卷积(Dilated convolution,又叫Atrous convolution)通过在稀疏采样的位置进行卷积,扩大了具有原始权重的卷积核,从而在不增加额外成本的情况下扩大了感受野大小。为了融合大尺度的上下文信息,空洞卷积在语义分割中得到了广泛的应用。在目标检测领域,DetNet设计了特定的检测主干网络,利用空洞卷积保持空间分辨率并扩大感受野。可变形卷积通过自适应学习采样位置,进一步推广了空洞卷积。在我们的工作中,我们在多分支结构里使用了不同dilation rate的空洞卷积来适应不同尺度目标的感受野。

3. Investigation of Receptive Field

主干网络的几个设计因素可能会影响目标检测器的性能,包括下采样率、网络深度和感受野。一些工作已经讨论了它们的影响。前两个因素的影响是直接的:较深的网络和较低的下采样率可能会增加复杂度,但总体上有利于检测任务。然而,据我们所知,目前还没有工作单独研究感受野的影响。
为了研究感受野对不同尺度目标检测的影响,我们将主干网络中的一些卷积替换为其空洞卷积变体。我们使用不同的dilation rate来控制网络的感受野。
dilation rate为 d s d_s ds的空洞卷积在连续的滤波值之间插入 d s − 1 d_s-1 ds1个0,在不增加参数和计算量的情况下扩大了kernel size。具体来说,一个3×3的空洞卷积可以和一个kernel size为 3 + 2 ( d s − 1 ) 3+2(d_s-1) 3+2(ds1)的普通卷积具有相同的感受野。假设当前特征图的总步长是 s s s,那么一个dilation rate为 d s d_s ds的空洞卷积可以把网络的感受野增加 2 ( d s − 1 ) s 2(d_s−1)s 2(ds1)s。因此如果我们用 d s d_s ds的dilation rate修改n个卷积层,感受野可以增加 2 ( d s − 1 ) s n 2(d_s−1)sn 2(ds1)sn
我们在COCO数据集上用以ResNet-C4为主干的Faster R-CNN检测器进行了预实验。该结果分别报告在所有目标和小、中、大尺寸目标上的COCO style mmAP。使用ResNet-50和ResNet-101作为主干网络,对 c o n v 4 conv_4 conv4阶段的残差块将3×3卷积的扩张率 d s d_s ds从1变化到3。
在这里插入图片描述
表1总结了结果。我们可以发现,随着感受野增大(更大的扩张率),检测器在小目标上的性能在ResNet-50和ResNet-101上一致地下降了。而对于大目标,探测器因为感受野的增大而受益。以上结果表明:

  • 不同尺度目标上的性能受网络感受野的影响。最合适的感受野与目标的尺度密切相关。
  • 尽管ResNet-101具有足够大的理论感受野,可以覆盖COCO中的大目标(大于96×96分辨率),但是当增大扩张率时,大目标的性能仍然可以得到提升。这与此前文献中有效感受野小于理论感受野的观点一致。我们猜想检测网络的有效感受野需要在小目标和大目标之间进行平衡。增大扩张率通过强调大目标扩大了有效感受野,进而损害了小目标的性能。
    上述实验启发我们要适应不同尺度目标的感受野。

4. Trident Network

在本节中,我们描述了用于目标检测的尺度感知三叉戟网络(TridentNet)。提出的TridentNet由权重共享的三叉戟模块和精心设计的尺度感知训练方案组成。最后,我们还给出了TridentNet的推理细节,包括一种快速的推理近似方法。

4.1. Network Structure

我们的目标是继承不同感受野大小的优点并避免它们对检测网络的缺点。为此我们提出了一种新颖的三叉戟结构,如图2所示。特别地,我们的方法以单尺度图像作为输入,然后通过卷积共享相同参数但具有不同扩张率的并行分支来创建特定尺度的特征图。
在这里插入图片描述
多分支模块。 我们通过将检测器主干网络中的部分卷积模块替换为提出的三叉戟模块来构建TridentNets。一个三叉戟模块由多个并行分支组成,每个分支都与原始卷积模块具有相同的结构,只是扩张率不同。
以ResNet为例,对于由核大小为1×1、3×3和1×1的3个卷积组成的瓶颈式单个残差块,相应的三叉戟模块构造成多个并行残差块,其具有不同扩张率的3×3卷积,如图3所示。堆叠三叉戟模块可以让我们以一种高效方式来控制不同分支的感受野,类似于第3节中的预实验。一般,我们将主干网络最后一个阶段的模块替换为三叉戟模块,因为更大的步长会导致所需的感受野差异更大。
在这里插入图片描述
分支间权重共享。 三叉戟模块的一个直观问题是它引入了几次参数,可能会导致过拟合。幸运的是,不同分支共享相同的结构(除了扩张率),从而使权重共享变得简单。在这项工作中,我们共享所有分支及其相关的RPN和R-CNN头的权重,仅仅只改变每个分支的扩张率。
权重共享的优点有三个。它减少了参数量,使得TridentNet与原始检测器相比不需要额外的参数。这也呼应了我们的动机,即不同尺度的目标应该经过具有相同表征能力的统一变换。最后一点是变换参数可以在来自所有分支的更多目标样本上进行训练,即在不同感受野下针对不同尺度范围训练相同的参数。

4.2. Scale-aware Training Scheme

TridentNet结构根据预定义的扩张率生成特定尺度的特征图。然而,表1中由尺度不匹配(例如扩张率过大的分支上的小目标)引起的损害对于每个分支依然存在。因此,在不同分支上检测不同尺度的目标是很自然的。这里,我们提出一种尺度感知训练方案,以提高每个分支的尺度感知能力,并避免在不匹配的分支上出现极端尺度的训练目标。
类似于SNIP,我们为每个分支 i i i定义一个有效范围 [ l i , u i ] [l_i,u_i] [li,ui]。在训练过程中,我们只选择尺度落在每个分支对应有效范围内的proposal和真值框。具体来说,对于输入图像(resize前)上宽度为 w w w、高度为 h h h的感兴趣区域(RoI),分支 i i i在满足下式时有效:
l i ≤ w h ≤ u i l_i≤\sqrt{wh}≤u_i liwh ui这种尺度感知训练方案可以用于RPN和R-CNN。对于RPN,我们在锚框标签分配时根据上式选择对每个分支有效的真值框。类似的,我们在R-CNN的训练过程中,为每个分支去除所有无效的proposal。

4.3. Inference and Approximation

在推理过程中,我们在所有分支生成检测结果,随后筛选掉落在每个分支有效范围之外的框。然后使用NMS或soft-NMS对多分支的检测输出进行合并,得到最终结果。
快速推理近似。 TridentNet的一个主要缺点是由于其分支特点导致的推理速度变慢。这里我们提出TridentNet Fast,它是TridentNet在推理过程中仅有一个分支的快速近似。对于如图2所示的三分支网络,我们使用中间的分支进行推理,因为它的有效范围覆盖了大目标和小目标。这样一来,与标准的Faster R-CNN检测器相比,TridentNet Fast不会产生额外的时间开销。出人意料的是,我们发现与原始的TridentNet相比,这种近似仅表现出轻微的性能下降。这可能是由于我们的权重共享策略,通过该策略,多分支训练相当于网络内的尺度增强。

5. Experiments

介绍了数据集使用情况。

5.1. Implementation Details

介绍了实验的实施细节。其中,三个分支的扩张率分别是1、2和3。在对TridentNet使用尺度感知训练方案时,三个分支的有效范围分别设置为 [ 0 , 90 ] [0,90] [0,90] [ 30 , 160 ] [30,160] [30,160] [ 90 , ∞ ] [90,∞] [90,]

5.2. Ablation Studies

在这里插入图片描述
首先验证了多分支结构、权重共享和尺度感知训练策略三个组件都是有效的,具体的实验结论可以参照原文。
在这里插入图片描述
然后证明了将分支数设置为3和在 c o n v 4 conv_4 conv4阶段使用三叉戟模块是最佳的,具体的实验结论可以参照原文。
在这里插入图片描述
接着说明三叉戟模块的堆叠数达到10之后模型编趋于稳定了,具体的实验结论可以参照原文。
在这里插入图片描述
最后研究各个分支的独立性能,验证了将三个分支结合起来效果最好,具体的实验结论可以参照原文。

5.3. Fast Inference Approximation

在这里插入图片描述
不同的尺度感知范围对快速推理近似的性能影响,这可能是由于权重共享策略造成的。由于主分支的权重在其他分支上共享,因此在尺度无关方案中训练所有分支等价于进行网络内的多尺度增强。具体的实验结论可以参照原文。

5.4. Comparison with State-of-the-Arts

在这里插入图片描述
在这里插入图片描述
和SOTA比的优越性,具体的实验结论可以参照原文。

6. Conclusion

在本文中,我们提出了一种简单的三叉戟网络目标检测方法来构建具有统一表征能力的网络尺度特征图。我们的多分支结构采用了尺度感知训练方案,使每个分支具备对应尺度的特定能力。仅用主分支的快速推断方法使得TridentNet在不增加任何额外参数和计算量的情况下,取得了比基线方法明显的提升。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Frankenstein@

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值