Faster-RCNN（一）之ROI Pooling层_fasterrcnn的roi-优快云博客

本文链接：https://blog.youkuaiyun.com/xue_csdn/article/details/98472329

Faster-RCNN可看作是在Fast-RCNN的基础上，加了RPN层。其网络结构如下图所示（图片源于网络 https://www.cnblogs.com/zyly/p/9247863.html）：

图1

其实在Fast-RCNN阶段就出现了ROI Pooling层，弥补了R-CNN阶段“将输入图片缩放为统一大小”的缺点，避免将图片拉伸变形，提高检测精度。但是在ROI Pooling之后的FC层的输入feature map必须是统一大小的，因此ROI Pooling层的作用就是：将卷积得到的proposals（RPN输出多个区域建议）提取出来，得到统一大小的feature map。目的是提取输出特征图上该ROI坐标所对应的特征。

从图1可看出：

ROI Pooling的输入：
（1）经过卷积之后的feature map，也叫共享卷积层（share_conv）
（2）经过RPN之后的输出，也就是ROIs，是一堆矩形框，形状为1x5x1x1（4个坐标+索引index），其中值得注意的是：坐标的参考系不是针对feature map这张图的，而是针对原图的（神经网络最开始的输入）

ROI Pooling的输出：
输出是batch个vector，其中batch的值等于ROI的个数，vector的大小为channelwh(编辑器的原因，中间的乘号不见了)；ROI Pooling的过程就是将一个个大小不同的box矩形框，都映射成大小为w*h的矩形框；

映射过程：
考虑一个8x8大小的feature map，一个ROI，以及输出