【目标检测】RCNN算法详解

最新推荐文章于 2020-10-28 09:39:47 发布

嘀嗒嘀嘀嗒嘀

最新推荐文章于 2020-10-28 09:39:47 发布

阅读量576

点赞数

分类专栏：深度学习

原文链接：https://blog.youkuaiyun.com/shenxiaolu1984/article/details/51066975

版权

深度学习专栏收录该内容

13 篇文章

订阅专栏

https://blog.youkuaiyun.com/jiongnima/article/details/79094159

Region CNN (RCNN )是利用深度学习进行目标检测的开山之作。

一、思想

解决了目标检测两个关键问题

问题一：速度

之前的经典算法是使用滑动窗口依次判断所有可能的区域。
RCNN是预先提取较可能是物体的候选区域，之后仅在这些候选区域上提取特征，进行判断。

问题二：训练集

经典的目标检测算法在区域中提取人工设定的特征。
RCNN需要训练深度网络(不懂)进行特征提取。可供使用的有两个数据库：
一个是较大的识别库：有标签的数据，1000类，1000万图像。
一个是较小的检测库：标定每张图片中，物体的类别和位置，20类，1万图像。
本文使用识别库进行预训练，之后用检测库调优参数，最后在检测库上评测。

二、流程

RCNN算法分4个步骤：
1）一张图像生成1K - 2K个候选区域
2）对每个候选区域，使用深度网络提取特征
3）特征送入每一类的SVM分类器，判别是否属于该类
4）使用回归器精细修正候选框位置

这里写图片描述

三、候选区域生成

使用了Selective Search方法从一张图像生成约2k - 3k个候选区域。基本思路如下：

使用一种分割手段，将图像分割成小区域
查看现有的小区域，合并可能性最高的两个区域，重复直到整张图像合并成一个区域位置<font size=6,color=#ff0000>不懂
输出所有曾经存在过的区域，所谓候选区域

候选区域生成和后续步骤相对独立，实际可以使用任意算法进行

四、合并规则

优先合并以下四种区域：
Ⅰ.颜色相近的
Ⅱ.纹理相近的
Ⅲ.合并后总面积小的
Ⅳ.合并后总面积在其b-box中所占比例大的

注意：
第三条
保证合并操作的尺度较为均匀，避免一个大区域陆续吃掉其他小区域
假设有区域a-b-c-d-e-f-g-h。
较好的合并方式：ab-cd-ef-gh -----> abcd-efgh -------> abcdefgh
不好的合并方式：ab-c-d-e-f-g-h -----> abcd-e-f-g-h ---->abcdefgh
第四条
保证合并后形状规则
这里写图片描述
左图适合合并，右图不适合合并。

4条规则只涉及区域的颜色直方图，纹理直方图，面积和位置，合并后的区域特征可以直接由子区域特征计算而来，速度较快。

多样化与后处理---------不懂多个颜色空间？？？

为尽可能不遗漏候选区域，上述操作在多个颜色空间（RGB，HSV，Lab等）中同时进行。在一个颜色空间中，使用上述4条规则的不同组合进行合并，所有颜色空间与所有规则的全部结果，在去除重复后，都作为候选区域输出。

五、特征提取

预处理

使用深度网络提取特征之前，首先把候选区域归一化成同一尺寸227×227
此处有一些细节可做变化：外扩的尺寸大小，形变时是否保持原比例，对框区域直接截取还是补灰。

预训练

网络结构
这里写图片描述
此网络提取的特征为4096维，之后送入一个4096->的全连接FC层进行分类，学习率为0.01
训练数据
使用全部数据进行训练，输入一张图片，输出1000维的类别标号

六、调优训练

网络结构
使用上述网络，最后一层换成4096->21的全连接网络。
学习率0.001，每一个batch包含32个正样本（属于20类）和96个背景
训练数据
使用训练集，输入一张图片，输出21维的类别标号，表示20类—+背景
考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果重叠比例大于0.5,则认为此候选框为此标定的类别；否则认为此候选框为背景。

七、类别判断

分类器

对每一类目标，使用一个SVM二类分类器进行判别，输入为深度网络输出的4096维特征，输出是否属于此类。
由于负样本很多，使用hard negative mining 方法不懂

正样本

本类的真值标定框

负样本

考察每一个候选框，如果和本类所有标定框的重叠都小于0。3，认定其为负样本

八、位置精修

目标检测问题的衡量标准是重叠面积：许多看似准确的检测结果，网往往因为候选框不够准确，重叠面积很小，故需要一个位置精修步骤。
回归器
对每一类目标，使用一个线性脊回归器进行精修。正则项 λ= 10000
输入为深度网络pool5层的4096维特征，输出为x,y方向的缩放和平移。
训练样本
判定为本类的候选框中，和真值重叠面积大于0.6的候选框