Faster R-CNN 论文链接:https://arxiv.org/abs/1506.01497
一、创新点
- 目前object detection的成功主要在于region proposal方法以及region-based CNN网络方法。
- region proposal耗时成为object detection的瓶颈。
- 作者设计提出RPN网络,替代region proposal方法的同时,实现end-to-end网络。
- rpn网络利用特征图实现region proposal,使得时间降低到10ms/张。
- rpn利用“anchor”实现多尺度,多方向的变换。(论文中同时介绍了其他的方法,比如图像金字塔,但是感觉还是anchor比较实用)
- 为了保证rpn与fast rcnn的一致,作者提出了一种交替训练的方法。
二、Faster R-CNN详解
Faster RCNN整体结构采用Fast R-CNN,另外利用设计的RPN网络替代Selective Search方法实现region的生成,如下图所示:
2.1 RPN 网络
RPN网络的输入为任意尺寸的图像,输出为一系列的矩形框以及是否为object的得分。
RPN网络采用n*n(默认n取3)的滑动窗口,首先通过卷积进行降维(实验默认是ZF-256维,VGG-512维),然后分别连接两个全连接层reg以及cls,实现回归与分类。
2.1.1 anchor
- 对于每个滑动窗口,rpn网络预测k个region proposal区域,这样reg网络便产生4k个输出代表着坐标,cls产生2k个输出,代表在是否为object
- k个不同大小的rp区域作者称之为anchor,faster r-cnn默认提取9个anchor,分别对应3个尺寸(作者默认为128,256,512),3个长宽比(作者默认为:1:1,1:2,2:1),如下是对应图像宽度缩放到600采用ZF网络时候对应的anchor的尺寸。
* 平移不变性。
* 相比较与multibox,采用本文方法的参数量大幅降低。
* multi-scale anchor,常用的多尺度方法如下,(a)为图像金字塔比较耗时,(b)为多尺度滤波器,本文选择方法(c)。
2.1.2 loss function
anchor 正负样本的分配:
* 与IOU重合度最大的标记被正样本
* 与IOU重合度大于70%的标记为正样本
* 与IOU重合度小于30%的标记为负样本。
loss function定于如下:
L(pi,ti)=1Ncls∑iLcls(pi,p∗i)+λ∑ip∗iLreg(ti,t∗i)