RCNN阅读笔记

最新推荐文章于 2022-05-24 23:27:09 发布

原创最新推荐文章于 2022-05-24 23:27:09 发布 · 331 阅读

0 ·

CC 4.0 BY-SA版权

A 专栏收录该内容

10 篇文章

订阅专栏

起初对于目标检测这方面的任务有些粗粗的了解，之后会有相关方面的任务需求，故仔细阅读相关文件，将自己的理解以及别人所提出的很好的见解记录于此，方便后续回顾.

参考“http://blog.youkuaiyun.com/wopawn/article/details/52133338”

来源：

一方面是近年来物体检测效果提升缓慢，另一方面是在ILSVRC 2012中对ImageNet结果进行重要讨论的过程中，有一个核心问题就是: “To what extent do the CNN classification results on ImageNet generalize to object detection results on the PASCAL VOC Challenge?”，而本文就是将CNN的分类结果很好地用到了PASCAL VOC 的目标检测的任务上面.

目标：

理解分类，检测，分割，姿态

其中分割还包括语义分割和实例分割，区别在于对于“人”，语义分割对所有人做同样的模块分割，而实例分割则对于“不同人”做出分割的不同（标记不同的颜色）.

方法：

（一）训练

训练模块由预训练+微调+分类器训练这三个模块组成，下面分三块介绍：

预训练特征提取模型：ILSVRC 2012数据库+图像级的标注（输入图像，输出1000类的One-hot标签）+开源的caffe CNN library.

微调特征提取模型：

1，从VOC数据中提取多个类别独立的region proposals，并warp成同样大小；

详：selective search方法《Selective Search for Object Recognition》；IOU阈值为0.5，大于则为正样本（正样本包括groundtruth），小于为负样本； warp：每个Proposal减去均值扩张紧张的边界框并裁成227*227，

2，微调模型：CCCCCFF, 输出：21维向量

详：权值更新方法：SGD; 每次迭代的mini-batch为128（32正（遍历所有类）+96背景（负））；

且将1000类的分类改成21类（VOC类别加背景）；学习率：0.001（训练时的1/10）

分类器训练：

对每个proposal的特征用类别独立的线性SVM进行分类，也即目标个数=线性SVM个数；

对于某一类（eg:dog），训练2值分类器：

1，将特征提取模型的最后一层去掉，也即对于一张图来说输出4096维的特征；

2，设置IOU的阈值为0.3（通过网格搜索根据验证集的效果确定的），小于阈值则为某类负样本(dog)，正样本为ground truth；

3，训练该类svm模型并保存该类参数（4096*2）

其中数据量太大的问题，文章采用“standard hard negative mining method”解决，对于N类目标同等处理，同样得到对应类别的参数.

（二）测试

1，对一张多目标图像，提取约 2000 个类别独立的region proposals（SS中的“fast mode”）（主要检测模块之一）；

2，扩张边界框，并将每个region proposal映射成同样大小（227*227），以输入后面相同的特征提取模型，后对每个框减去该框像素均值（预处理）；

3，用CNN对每个proposal提取固定长度（4096）的特征（主要检测模块之二）；

4，由3获得的2000*4096维的特征，乘以N个SVM的4096*N的权重矩阵（N为目标类别数，此文为20），得到所有proposals的所有类别预测得分（主要检测模块之三）；

5，对每一类（2000*20中的任一列）通过非极大值抑制剔除重复或不合适的proposals,剩余合适的；

6，对每一类的proposals进行BB（Bounding box）回归修正定位，减小定位误差

细节解析：

1，SS

SS之前的穷举搜索就是以不同大小的窗口扫整个图像，这种做法很费时而使得选择性搜索的产生，大致思路分为：

图像平滑→整图分割（不同通道分别进行）→相邻的相似区域合并（颜色/纹理/大小等人工特征上的相似）

输入图像利用颜色空间的多样性做处理，使得产生的分割效果较好.

2，如何缩放成227*227的图像块大小？

周边像素用proposal均值填充并暴力缩放.(此处多种方式理解不细致，需重复学习，有人理解为“作者并不是总是在建议框周围加上像素的平均值作为context，正常情况下是使用建议框周围像素作为context，在遇到原图边界时才使用的image mean来填充；第二个问题是，用于padding的16个像素是指在warp之后的227x227图像中的大小。即在227x227图像中，上下左右都有16个像素是不属于建议框，而属于建议框周边的context。这样，在建议框周围填充的像素大小可以通过227、16和建议框尺寸计算出来。”)

3，特征可视化？

文中将这些特征视为”物体检测器”，输入10million的Region Proposal集合，计算每种6×6特征即“物体检测器”的激活量，之后进行非极大值抑制，最后展示出每种6×6特征即“物体检测器”前几个得分最高的Region Proposal，从而给出了这种6×6的特征图表示了什么纹理、结构。

看到这段解释，感觉对文中的图3做了详细的解释。

4，非极大值抑制？

这里非极大值抑制的目的是剔除重复的proposal,从输入的多个建议框到最后输出建议框所对应的分类属性矩阵（M*20），每一列表示属于某一类的建议框的属性，要把一列中重复的建议框剔除. 从字面上来说，就是取极大值，而排除小的值，也就是其中的proposal具有不同的权重值使得该proposal归属于对应的类别；而在剔除非极大值之前要先确定某两个建议框是否重叠，文中用IoU的定义来判断是否重叠.

这里写图片描述

IoU=(A∩B)/(A∪B)

对于（M*20）的任一列，将权重从大到小排列，先取最大的权重所在的建议框与剩余的其他建议框计算重叠率，超过一定的重叠阈值则表示两者重复，则剔除权重较低的一个，当剔除完与最大权重重复的框之后开始剔除次大权重的建议框的重复框，直到该列中不存在重复的建议框；依次对每一列做如上操作.

5，bounding box回归？

目标检测的精度包括识别+定位精度，其中定位精度要求预测和实际的检测框之间的IoU尽可能大.

这里写图片描述

P为初始预测框（x,y,w,h），G为真实框，G'为修正后的框，原理就是构造框的4个参数之间变换函数.

所使用的数据为与Ground Truth相交IoU最大的Region Proposal，并且IoU>0.6的Region Proposal。（不同类别单独训练回归函数）

需注意的点：

问：为什么单独训练等同于目标个数的线性SVM，而不是直接使用微调后的输出作判别？

答：微调时和训练SVM时所采用的正负样本阈值不同，且微调阶段正样本定义并不强调精准的位置，而SVM正样本只有Ground Truth；并且微调阶段的负样本是随机抽样的，而SVM的负样本是经过hard negative mining方法筛选的；结果就是在采用SoftMax会使PSACAL VOC 2007测试集上mAP从54.2%降低到50.9%。

问：不同类的CNN参数是否相同？

答：特征提取的参数相同，因某个proposal的特征有可能属于多个类别，也即proposal和特征的提取时间可以分摊到所有类别.

问：微调和SVM训练的正负样本的划分（IOU阈值）为何不同？

答：补充材料

问：为什么微调时和训练SVM时所采用的正负样本阈值【0.5和0.3】不一致？

答：微调阶段是由于CNN对小样本容易过拟合，需要大量训练数据，故对IoU限制宽松：Ground Truth+与Ground Truth相交IoU>0.5的建议框为正样本，否则为负样本； SVM这种机制是由于其适用于小样本训练，故对样本IoU限制严格：Ground Truth为正样本，与Ground Truth相交IoU＜0.3的建议框为负样本。

亮点：

1，卷积神经网络对于从底到上的 region proposals特征的提取对定位/分割目标有强大的作用，相较于传统的人工特征；

2，有监督的提前训练在大型的辅助数据集 (ILSVRC), 加上特定领域小数据集 (PASCAL)的微调对于数据稀缺时的高容量CNN的学习是一个有效的范例.

结论：