RoIPooling、RoIAlign

最新推荐文章于 2023-02-14 09:49:04 发布

原创最新推荐文章于 2023-02-14 09:49:04 发布 · 521 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#RoIPooling #RoIAlign

算法思想同时被 2 个专栏收录

13 篇文章

订阅专栏

Faster R-CNN

5 篇文章

订阅专栏

本文对比分析了RoIPooling和RoIAlign两种用于目标检测中区域提议映射的技术。RoIPooling通过量化操作将不同大小的ROI映射到固定大小的特征图，但存在像素偏差问题。RoIAlign则采用双线性插值法，避免量化误差，提高小目标检测精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

功能：将不同size的ROI区域映射到固定大小的feature map上

1.RoIPooling

这个可以在Faster RCNN中使用以便使生成的候选框region proposal映射产生固定大小的feature map

先贴出一张图，接着通过这图解释RoiPooling的工作原理

针对上图

1)Conv layers使用的是VGG16，feat_stride=32(即表示，经过网络层后图片缩小为原图的1/32),原图800*800,最后一层特征图feature map大小:25*25

2)假定原图中有一region proposal，大小为665*665，这样，映射到特征图中的大小：665/32=20.78,即20.78*20.78，如果你看过Caffe的Roi Pooling的C++源码，在计算的时候会进行取整操作，于是，进行所谓的第一次量化，即映射的特征图大小为20*20

3)假定pooled_w=7,pooled_h=7,即pooling后固定成7*7大小的特征图，所以，将上面在 feature map上映射的20*20的 region proposal划分成49个同等大小的小区域，每个小区域的大小20/7=2.86,即2.86*2.86，此时，进行第二次量化，故小区域大小变成2*2；经过这两次量化，候选区域已经出现了较明显的偏差（如图中绿色部分所示）

4)每个2*2的小区域里，取出其中最大的像素值，作为这一个区域的‘代表’，这样，49个小区域就输出49个像素值，组成7*7大小的feature map

总结，所以，通过上面可以看出，经过两次量化，即将浮点数取整，原本在特征图上映射的20*20大小的region proposal，偏差成大小为14*14的，这样的像素偏差势必会对后层的回归定位产生影响

它的缺点：由于两次量化带来的误差；

（1）将候选框边界量化为整数点坐标值。

（2）将量化后的边界区域平均分割成 k x k 个单元(bin),对每一个单元的边界进行量化。

所以，产生了替代方案，RoiAlign

2.RoIAlign

ROI Align的思路很简单：取消量化操作，使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作

这个是在Mask RCNN中使用以便使生成的候选框region proposal映射产生固定大小的feature map时提出的

先贴出一张图，接着通过这图解释RoiAlign的工作原理