目标检测——R-FCN_目标检测 rfcn-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43624538/article/details/88674844

Paper：R-FCN: Object Detection via Region-based Fully Convolutional Networks

作者：Jifeng Dai, Yi Li, Kaiming He, Jian Sun

Visual Computing Group / Microsoft Research Asia

1 提出框架

首先说一说为什么提出了RFCN。作者分析此前的各种分类和检测框架，发现了一个问题：很多网络应用在分类问题的时候都能取得相当好的结果，准确率非常高，但是在应用到检测问题上的时候结果似乎就没那么理想了，这是为啥呢？除去分类和检测问题本身的复杂性，作者思考了一下这些框架的特点。
我们知道，在做分类问题的时候，从早期的AlexNet、VGGNet到之后的GoogleNet、ResNet使用的模式都是“卷积网络提取特征+全连接层/GAP层做分类”，于是在处理检测问题的时候，这种模式就被自然而然的迁移过来，比如我们之前说过的RCNN系列、SSD等等，也都是采取卷积网络提取特征（加入ROI提取）+RoI Pooling的模式来做检测。
于是作者就此分析了解决分类/检测两种问题的关键：
(1) 分类问题：其本身要求具有平移不变性。也就是说当目标的位置发生变化时，分类网络能够自动适应位置的变化。
(2) 检测问题：对目标进行定位的需求要求其具有平移敏感性。由于检测问题需要在图像中对目标进行精确的定位，因此要求整个网络对目标的位置变化更为敏感。
通过先前的学习我们了解到，分类问题中深度卷积网络使得整个模型具有很好的平移不变性，而检测问题中引入的RoI Pooling的操作引入了位置信息。但是作者认为这种做法大大牺牲了训练和测试的效率。
于是作者就此提出了一个新的操作：叫做位敏得分特征图(position-sensitive score maps)。基于这个玩意做出了新的检测框架：Region-based Fully Convolutional Network (R-FCN)。

2 R-FCN框架和细节

2.1 R-FCN整体的网络结构

咱们先来看看整个R-FCN网络的结构：

整个网络沿用了Faster-RCNN（可以会看我们的博客Faster RCNN）的框架：卷积网络提取特征，由RPN生成候选框，RPN和特征提取共享卷积网络。
(1) 特征提取部分采用ResNet-101的结构，去掉了最后的GAP层和fc层，并添加了一个1024维的1*1卷积用来降维（原输出是2048维），总共101个卷积层。
(2) RPN部分与Faster-RCNN相同，基本没有变化。
(3) 位敏得分特征图(Position-sensitive score maps) 生成和位敏RoI Pooling(Position-sensitive RoI pooling, PSRoIPooling)部分。（划重点！）

2.2 Position-sensitive score maps(位敏得分特征图，PSSM)

顾名思义，位敏得分特征图就是一个对位移敏感的特征图（废话，，为啥对位移敏感等会儿会说）。这一步的操作是在特征提取部分网络输出的feature map（1024个 $w * h$ 的feature map）后接一个 $k^2 (C+1)$ 维的 $1 * 1$ 卷积层得到 $k^2 (C+1)$ 个大小为 $w * h$ 的Position-sensitive score maps，这个 $k^2 (C+1)$ 个score maps代表啥呢？看下图：