【目标检测】Faster R-CNN算法

原创已于 2022-02-25 14:48:13 修改 · 846 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测

于 2020-08-04 15:38:06 首次发布

目标检测专栏收录该内容

34 篇文章

订阅专栏

本文深入解析Faster R-CNN目标检测模型，介绍其如何通过RPN网络提高候选区域生成效率，实现检测速度与精度的平衡。文章涵盖模型结构、训练流程及效果对比，适合对目标检测感兴趣的读者。

在这里插入图片描述
论文翻译
https://www.cnblogs.com/fyh1420/p/11475090.html

前言：

在Fast R-CNN中还存在着瓶颈问题：Selective Search（选择性搜索）。要找出所有的候选框，这个也非常耗时。那我们有没有一个更加高效的方法来求出这些候选框呢？

1. Faster R-CNN
在Faster R-CNN中加入一个提取边缘的神经网络，也就说找候选框的工作也交给神经网络来做了。这样，目标检测的四个基本步骤（候选区域生成，特征提取，分类，位置精修）终于被统一到一个深度网络框架之内。
在这里插入图片描述
Faster R-CNN可以简单地看成是区域生成网络（RPN网络）+Fast R-CNN的模型，用区域生成网络（Region Proposal Network，简称RPN）来代替Fast R-CNN中的选择性搜索方法，结构如下：

首先向CNN网络(VGG16)输入任意大小图片
Faster R-CNN使用一组基础的conv+relu+pooling层提取feature map。该feature map被共享用于后续RPN层和RoI Pooling层。
Region Proposal Networks。RPN网络用于生成region proposals，该层通过softmax判断anchors属于foreground或者background，再利用bounding box regression修正anchors获得精确的region proposals，输出其Top-N(默认为300)的区域给RoI pooling。[生成anchors -> softmax分类器提取fg anchors -> bbox reg回归fg anchors -> Proposal Layer生成region proposals]
第2步得到的高维特征图和第3步输出的区域，合并（可以理解成候选区映射到特征图中，类似第（三）节SPPNet中1.1"映射"）输入RoI池化层(类), 该输出到全连接层判定目标类别。
利用proposal feature maps计算每个region proposal的不同类别概率，同时bounding box regression获得检测框最终的精确位置

Faster R-CNN基本结构:
在这里插入图片描述
解释：
上图展示了python版本中的VGG16模型中的faster_rcnn_test.pt的网络结构，可以清晰的看到该网络对于一副任意大小PxQ的图像，首先缩放至固定大小MxN，然后将MxN图像送入网络；
而Conv layers中包含了13个conv层+13个relu层+4个pooling层；RPN网络首先经过3x3卷积，再分别生成foreground anchors与bounding box regression偏移量，然后计算出region proposals；而RoI Pooling层则利用region proposals从feature maps中提取region proposal feature送入后续全连接和softmax网络作classification（即分类region proposal到底是什么object）。

2. RPN（Region Proposal Networks）原理
RPN网络的主要作用是得出比较准确的候选区域。整个过程分为2步：

用n×n（默认3×3=9）的大小窗口去扫描特征图，每个滑窗位置映射到一个低维的向量（默认256维），并为每个滑窗位置考虑k种可能的参考窗口（在paper在k=9，参考窗口称为锚框anchors）
低维特征向量输入两个并行连接的1×1卷积层后得出两个部分：reg窗口回归层（用于修正位置）+cls窗口分类层（是否为前景或背景概率）

上图展示了RPN网络的具体结构。可以看到RPN网络实际分为2条线，上面一条通过softmax分类anchors获得foreground和background（检测目标是foreground），

下面一条用于计算对于anchors的bounding box regression偏移量，以获得精确的proposal。而最后的Proposal层则负责综合foreground anchors和bounding box regression偏移量获取proposals，

同时剔除太小和超出边界的proposals（有一些分类实在太烂的区域，我们直接丢掉，否则计算量会非常大）。其实整个网络到了Proposal Layer这里，就完成了相当于目标定位（相当于完成了选择性搜索(SS)生成候选区）的功能。

anchors：
在这里插入图片描述
举个例子：
3*3卷积核的中心点对应原图上的位置，将该点作为anchor的中心点，在原图中框出多尺度、多种长宽比的anchors, 三种尺度{ 128，256，512 }，三种长宽比{1:1，1:2，2:1}

解释：

所谓anchors，实际上就是一组的矩形。

[[ -84.  -40.   99.   55.]
 [-176.  -88.  191.  103.]
 [-360. -184.  375.  199.]
 [ -56.  -56.   71.   71.]
 [-120. -120.  135.  135.]
 [-248. -248.  263.  263.]
 [ -36.  -80.   51.   95.]
 [ -80. -168.   95.  183.]
 [-168. -344.  183.  359.]]

其中每行的4个值 (x_1, y_1, x_2, y_2) 表示矩形左上和右下角点坐标。9个矩形共有3种形状，长宽比为大约为{width:height}∈{1:1, 1:2, 2:1} 三种，如下图所示。实际上通过anchors就引入了检测中常用到的多尺度方法。

在这里插入图片描述

注：关于上面的anchors size，其实是根据检测图像设置的。在python demo中，会把任意大小的输入图像reshape成800x600（即图2中的M=800，N=600）。再回头来看anchors的大小，anchors中长宽1:2中最大为352x704，长宽2:1中最大736x384，基本是cover了800x600的各个尺度和形状。

那么这9个anchors是做什么的呢？
借用Faster R-CNN论文中的原图，如图，遍历Conv layers计算获得的feature maps，为每一个点（每一个像素的中心）都配备这9种anchors作为初始的检测框。这样做获得检测框很不准确，不用担心，后面还有2次bounding box regression可以修正检测框位置。
在这里插入图片描述

其实RPN最终就是在原图尺度上，设置了密密麻麻的候选Anchor。然后用CNN去判断哪些Anchor是里面有目标的foreground anchor，哪些是没目标的backgroud。所以，仅仅是个二分类而已！
而anchor的个数也是我们关心的一个问题，如下图经过CNN后得到的特征是51 x 39（通道数忽略），那么对于9种形状的anchor，一共有51 x 39 x 9 = 17901个anchor从RPN层输出，对于更高维度的图像，输出的特征会更大，带来训练参数过大的问题。
在这里插入图片描述