目标检测经典论文翻译汇总:[翻译汇总]
翻译pdf文件下载:[下载地址]
此版为纯中文版,中英文对照版请稳步:[R-FCN中英文对照版]
摘要
我们提出了基于Region的全卷积网络,以实现准确和高效的目标检测。与先前的基于区域的检测器(如Fast/Faster R-CNN [6,18])相比,这些检测器每次需要对每个region运行非常耗时子网络,我们的基于区域的检测器是全卷积的,几乎所有计算都在整张图像上共享。为了实现这一目标,我们提出了位置敏感分数图(position-sensitive score maps),以解决图像分类中的平移不变性与目标检测中的平移可变性之间的矛盾。因此,我们的方法自然地采用全卷积图像分类器的主干网络,如最新的残差网络(ResNets)[9],用于目标检测。我们使用101层ResNet在PASCAL VOC数据集上获得了具有竞争力的结果(例如,2007数据集上83.6%的mAP)。同时,我们的测试结果达到每张图像170ms的测试速度,比Faster R-CNN相应的配置速度快2.5-20倍。代码公开发布在:https://github.com/daijifeng001/r-fcn。(译者注:上面github的代码为Matlab版,Python版:https://github.com/YuwenXiong/py-R-FCN)
1. 引言
流行的目标检测深度网络家族[8,6,18]通过感兴趣区域(RoI)池化层[6]可以将网络划分成两个子网络:(1)独立于RoI的共享“全卷积”子网络,(ii)不共享计算的RoI子网络。这种分解[8]以往是由开创性的分类架构产生的,例如AlexNet[10]和VGG Nets[23]等,在设计上它由两个子网络组成——一个卷积子网络以空间池化层结束,后面是几个全连接(fc)层。因此,图像分类网络中的(最后一个)空间池化层在目标检测网络中[8,6,18]自然地变成了RoI池化层。
但是最近最先进的图像分类网络,如残差网络(ResNets)[9]和GoogLeNets[24,26]都是被设计成全卷积的。通过类比,在目标检测架构中使用所有卷积层来构建共享的卷积子网络似乎是很自然的,使得RoI的子网络没有隐藏层。然而,对这项工作通过经验性的研究发现,这个naive的解决方案有相当差的检测精度,无法获得更好的分类精度。为了解决这个问题,在ResNet论文[9]中将Faster R-CNN检测器[18]的RoI池化层不自然地插入到两组卷积层之间——这便构建了更深的RoI子网络,其改善了精度,但由于非共享的逐RoI计算使得运行速度更低。
我们认为,前面提到的非自然设计源于图像分类任务希望增加变换不变性与目标检测希望保持平移可变性之间的矛盾。一方面,图像水平的分类任务更希望具有平移不变性——图像内的目标位置的移动对分类结果应该是无差别的。因此,深度(全)卷积架构尽可能保持平移不变性,这一点可以从ImageNet分类[9,24,26]的主要结果中得到证实。另一方面,目标检测任务的定位表示需要一定程度上满足平移可变性。例如,在候选框内目标变换应该产生有意义的响应,用于描述候选框与目标的重叠程度。我们假设图像分类网络中较深的卷积层对平移不太敏感。为了解决这个困境,ResNet论文的检测流程[9]将RoI池化层插入到卷积中——特定区域的操作打破了平移不变性,当在不同区域进行评估时,RoI后卷积层不再是平移不变的。然而,这个设计牺牲了训练和测试效率,因为它引入了大量的区域层(表1)。
表1:使用ResNet-101的基于区域的检测器方法[9]。
在本文中,我们开发了一个称为基于区域的全卷积网络(R-FCN)框架来进行目标检测。我们的网络由共享的全卷积架构组成,就像FCN[15]一样。为了将平移可变性并入FCN,我们通过使用一组专门的卷积层作为FCN输出来构建一组位置敏感的分数图。这些分数图中的每一个都编码相对应的空间位置信息(例如,“在目标的左边”)。在这个FCN的顶部,我们添加了一个位置敏感的RoI池化层,它从这些分数图中获取信息,并且后面没有权重(卷积层或全连接层)层。整个架构是端到端的学习。所有可学习的层都是卷积层,并在整个图像上共享计算,同时也对目标检测所需的空间信息进行了编码。图1阐述了其主要思想,表1比较了基于区域的不同检测器方法。
图1:R-FCN用于目标检测的主要思想。在这个图中,由全卷积网络生成了k×k=3×3的位置敏感分数图。对于RoI中的每个k×k bins,池化是在每个k2个映射图(用不同的颜色标记)上单独进行的。
使用101层的残差网络(ResNet-101)[9]作为backbone(译者注:也就是网络的主干部分,用于提取并输出输入图像的特征图),我们的R-FCN在PASCAL VOC 2007数据集和2012数据集上分别获得了83.6%的mAP和82.0%的mAP。同时,使用ResNet-101时我们的模型在测试时运行每张图像只需170ms,比[9]中相应的Faster R-CNN + ResNet-101模型快了2.5倍到20倍。这些实验表明,我们的方法设法解决平移不变性/可变性之间的矛盾,并且全卷积图像水平的分类器,例如ResNet,可以有效地转换为全卷积目标检测器。代码公开发布在:https://github.com/daijifeng001/r-fcn(译者注:此代码为Matlab版,Python版:https://github.com/YuwenXiong/py-R-FCN)。
2. 我们的方法
概述。根据R-CNN[7],我们也采用了流行的两阶段目标检测策略[7,8,6,18,1,22],其中包括:(i)region proposal和(ii)区域分类。尽管不依赖region proposal的方法确实存在(例如[17,14]),但是基于区域的系统在几个基准(数据集及评估标准)[5,13,20]中仍然具有领先的准确性。我们使用region proposal网络(RPN)提取候选区域[18],RPN本身就是一个全卷积架构。根据[18]我们在RPN和R-FCN之间的共享特征。图2所示为系统的概述。
图2:R-FCN的总体架构。region proposal网络(RPN)[18]产生候选RoI&#x