Faster-RCNN可看作是在Fast-RCNN的基础上,加了RPN层。其网络结构如下图所示(图片源于网络 https://www.cnblogs.com/zyly/p/9247863.html):
图1
其实在Fast-RCNN阶段就出现了ROI Pooling层,弥补了R-CNN阶段“将输入图片缩放为统一大小”的缺点,避免将图片拉伸变形,提高检测精度。但是在ROI Pooling之后的FC层的输入feature map必须是统一大小的,因此ROI Pooling层的作用就是:将卷积得到的proposals(RPN输出多个区域建议)提取出来,得到统一大小的feature map。目的是提取输出特征图上该ROI坐标所对应的特征。
从图1可看出:
ROI Pooling的输入:
(1)经过卷积之后的feature map,也叫共享卷积层(share_conv)
(2)经过RPN之后的输出,也就是ROIs,是一堆矩形框,形状为1x5x1x1(4个坐标+索引index),其中值得注意的是:坐标的参考系不是针对feature map这张图的,而是针对原图的(神经网络最开始的输入)
<