之前一直是使用faster rcnn对其中的代码并不是很了解,这次刚好复现mask rcnn就仔细阅读了faster rcnn,主要参考代码是pytorch-faster-rcnn ,部分参考和借用了以下博客的图片
[1] CNN目标检测(一):Faster RCNN详解
姊妹篇mask rcnn解析
整体框架
- 首先图片进行放缩到W*H,然后送入vgg16(去掉了pool5),得到feature map(W/16, H/16)
- 然后feature map上每个点都对应原图上的9个anchor,送入rpn层后输出两个: 这9个anchor前背景的概率以及4个坐标的回归
- 每个anchor经过回归后对应到原图,然后再对应到feature map经过roi pooling后输出7*7大小的map
- 最后对这个7*7的map进行分类和再次回归
(此处均为大体轮廓,具体细节见后面)
数据层
- 主要利用工厂模式适配各种数据集 factory.py中利用lambda表达式(泛函)
- 自定义适配自己数据集的类,继承于imdb
- 主要针对数据集中生成roidb,对于每个图片保持其中含有的所有的box坐标(0-index)及其类别,然后顺便保存它的面积等参数,最后记录所有图片的index及其根据index获取绝对地址的方法
- 1
- 2
- 3
- 4
- 5
- 6
anchors生成
经过feature extraction后,feature map的大小是(W/16, H/16), 记为(w,h),然后每个feature map每个点生成k个anchor,论文中设置了3中ratio, 3种scale 共产生了w*h*9个anchors
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
RPN
概览
正如整体框架上画的那样,feature map后先跟了一个3*3的卷积,然后分别用2个1*1的卷积,预测feature map上每个点对应的9个anchor属于前背景的概率(9*2)和4个回归的坐标(9*4)
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
anchor target
对上一步产生的anchor分配target label,1前景or0背景or-1忽略,以便训练rpn
- 对于每个gt box,找到与他iou最大的anchor然后设为正样本
- 对于每个anchor只要它与任意一个gt box iou>0.7即设为正样本
- 对于每个anchor它与任意一个gt box iou都<0.3即设为负样本
- 不是正也不是负的anchor被忽略
注意
正样本的数量由num_fg = int(cfg.TRAIN.RPN_FG_FRACTION * cfg.TRAIN.RPN_BATCHSIZE)控制,默认是256*0.5=128,即最多有128个正样本参与rpn的训练. 假如正样本有1234个,则随机抽1234-128个正样本将其label设置为-1,即忽略掉,当然正样本也有可能不足128个,那就都保留下来.
负样本的数量由num_bg = cfg.TRAIN.RPN_BATCHSIZE - np.sum(labels == 1),同理如果超额也为多余的忽略.
注意和TRAIN.RPN_FG_FRACTION和TRAIN.FG_FRACTION的,前者控制参与rpn训练的正样本的数量,后者是控制送到到fast rcnn中proposal的正负样本比例
proposal
- 首先利用4个坐标回归值对默认的w*h*9个anchor进行坐标变换生成proposal
- 然后利用前景概率对这些proposal进行降序排列,然后留下RPN_PRE_NMS_TOP_N个proposal 训练是留下12000,测试是留下6000
- 对剩下的proposal进行NMS处理,阈值是0.7
- 对于剩下的proposal,只留下RPN_POST_NMS_TOP_N,训练是2000,测试是300
最终剩下的proposal即为rois了
proposal target
对留下的proposal(train:2000, test没有这个阶段,因为测试不知道gt无法分配)分配target label,属于具体哪一个类别,以便训练后面的分类器, 下面以train阶段的某个图片为例即该张图片有2000个proposal,gt中含有15个类别的box(不含背景) (全库有20个类别)
- 1
- 2
- 3
- 4
- 计算每个roi(proposal)与15个gt box做iou,得到overlaps(2000, 15) ,然后选择最大的iou作为这个roi的gt label(坑点: gt box的顺序不一定和label对应,一定要取gt box的第4个维度作为label,因为可能包含15个gt box,但是全库是有20中label的)
- 然后记roi与其target label的ovlap>TRAIN.FG_THRESH(0.5)的为fg,0.1
- 1
- 2
- 3
- 4
- 5
- 6
roi pooling
上一步得到了很多大小不一的roi,对应到feature map上也是大小不一的,但是fc是需要fixed size的,于是根据SPPNet论文笔记和caffe实现说明,出来了roi pooling(spp poolingfroze 前面的卷积只更新后面的fc,why见fast rcnn的2.3段解释的)
我主要参考了这篇博客Region of interest pooling explained,但是我感觉它的示意图是有问题的,应该有overlap的
1. 我们首先根据roi的位置映射到原图,然后根据feature map和原图的比例,得到roi部分的feature(蓝色框为实际位置,浮点坐标(1.2,0.8)(7.2,9.7),四舍五入量化到红色框(1,1)(7,10))
- 1
- 2
- 3
- 4
2. 对红色红色框进行roipooling
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
3. 对每个划分的pool bin进行max或者average pooling最后得到7*7的feature map
分类和回归
roi pooling后就得到fixed size的feature map(7*7),然后送入cls_score_net得到分类,送入bbox_pred_net粗暴的坐标回归和rpn时一样
- 1
- 2
test
继续假设全部类别数是20种
1. 图片送入网络后前传,没有给anchor proposal指定gt的部分(忽略_anchor_target_layer _proposal_target_layer)
2. 经过proposal得到300个roi,经过cls_score_net bbox_pred_net得到每个roi在20个类别的置信度和4个坐标回归值(可在测试时把这个回归值用上,也可以不用)
3. 测试时300个roi类别未知,所以可以对应20个类别,即有300*20个box,300*20个置信度
3. 对每一类,取300个roi>thresh(默认为0.),然后进行nms获得留下的box
4. 然后对20类留下的所有box,按概率排序,留下设定的max_per_image个box
有个不解就是为什么对于每个roi,不是选择其置信度最大的类别,而可以对应到20种类别,可能是map算法,同等置信度下,多一些box得分会高一些
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
延伸
验证一下nms在训练时是不是必须的
参考An Implementation of Faster RCNN with Study for Region Sampling
• First, take the top K regions according to RPN score.
• Then, non-maximal suppression (NMS) with overlapping ratio of 0.7 is applied to perform de-duplication.
• Third, top k regions are selected as RoIs.
Intuitively, it is more likely for large regions to overlap than small regions, so large regions have a higher chance to be suppressed对这句话保留意见,nms算的是iou,没有偏向抑制大的region吧
ALL是top12000 proposal都送入后面的网络,不进行nms PRE是利用第一行已经训练好的faster rcnn直接得到最终的正负样本比例 POW: 比例和scale成反比,详细见文章。TOP是test是选择top 5000不进行nms(faster rcnn本身是选择top 6000然后nms,最后再取top300)
In fact, we find this advantage of TOP over NMS consistently exists when K is sufficiently large.
原文地址:http://blog.youkuaiyun.com/u013010889/article/details/53928363