RoI-Pooling与RoI-Align的区别

最新推荐文章于 2025-04-08 11:13:52 发布

二亩三分地

最新推荐文章于 2025-04-08 11:13:52 发布

阅读量1.7k

点赞数 11

分类专栏：关于深度学习的概念

关于深度学习的概念专栏收录该内容

5 篇文章

订阅专栏

本文详细解析了RoIPooling和RoIAlign在目标检测中的应用原理，对比了两者在处理图片中大目标和小目标物体时的区别，强调了RoIAlign在小目标检测上的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接：https://www.cnblogs.com/wangyong/p/8523814.html

一）、RoIPooling

这个可以在Faster RCNN中使用以便使生成的候选框region proposal映射产生固定大小的feature map

先贴出一张图，接着通过这图解释RoiPooling的工作原理

针对上图

1)Conv layers使用的是VGG16，feat_stride=32(即表示，经过网络层后图片缩小为原图的1/32),原图800*800,最后一层特征图feature map大小:25*25

2)假定原图中有一region proposal，大小为665*665，这样，映射到特征图中的大小：665/32=20.78,即20.78*20.78，如果你看过Caffe的Roi Pooling的C++源码，在计算的时候会进行取整操作，于是，进行所谓的第一次量化，即映射的特征图大小为20*20

3)假定pooled_w=7,pooled_h=7,即pooling后固定成7*7大小的特征图，所以，将上面在 feature map上映射的20*20的 region proposal划分成49个同等大小的小区域，每个小区域的大小20/7=2.86,即2.86*2.86，此时，进行第二次量化，故小区域大小变成2*2

4)每个2*2的小区域里，取出其中最大的像素值，作为这一个区域的‘代表’，这样，49个小区域就输出49个像素值，组成7*7大小的feature map

总结，所以，通过上面可以看出，经过两次量化，即将浮点数取整，原本在特征图上映射的20*20大小的region proposal，偏差成大小为14*14的，这样的像素偏差势必会对后层的回归定位产生影响

所以，产生了替代方案，RoiAlign

二）、RoIAlign

这个是在Mask RCNN中使用以便使生成的候选框region proposal映射产生固定大小的feature map时提出的

先贴出一张图，接着通过这图解释RoiAlign的工作原理