上一篇介绍了RCNN和Fast RCNN,本文介绍RCNN系列的终极版本,FasterRCNN。Faster RCNN虽然是2015年的论文,但它至今认识许多目标检测算法的基础。
FasterRCNN可以看做是RPN(region proposal network) + fast RCNN的系统,用RPN代替了之前的selective search 来进行region proposal的选择和修正。
RPN
如上图所示,RPN网络的基本思路是将图片经过CNN进行特征的提取,对所有可能的候选框进行打分,选出confidence较高的框(前2000)传入下一层用于fast RCNN的目标检测,其中RPN和Fast RCNN两个网络共享一组共同的卷积层。
如上图所示,我们再最后的特征层上进行滑窗,这个窗口将输入卷积特征映射的n×n空间窗口作为输入,每个窗口都可以映射到原始的图片中, 其映射的原始图片的位置即为输入RPN的候选框。在文章中,使用的n为3,即每个候选框映射到特征层的窗口为3×3大小。最后我们对得到的特征输入两个1×1的卷积层,分别预测类别(2分类,)和坐标(xywh)。
anchor:anchor即为我们所提到的候选框,在滑动窗口的位置,同时预测多个候选框,候选框的中心点是相同的,只是有不同的尺度和长宽比。文章使用3个尺度和3个长宽比。anchor的尺度为(128,256,512),而特征映射中3×3滑动窗口感受野为(228)。我们注意到,我们的算法允许预测比基础感受野更大。这样的预测不是不可能的——如果只有目标的中间部分是可见的,那么仍然可以粗略地推断出目标的范