ROI Pooling原理

最新推荐文章于 2024-01-30 23:32:26 发布

是大糊涂不聪明

最新推荐文章于 2024-01-30 23:32:26 发布

阅读量1.3k

点赞数

分类专栏：深度学习

本文链接：https://blog.youkuaiyun.com/weixin_47289438/article/details/113871336

版权

深度学习专栏收录该内容

10 篇文章

订阅专栏

ROI Pooling是一种在深度学习中用于处理不同大小特征图的技术，它将不同尺寸的特征图池化为固定大小，以便于后续处理。该方法通过将输入特征图按ROI划定的矩形区域划分为网格，对每个网格进行最大池化操作。例如，对于一个8x8的特征图和一个输出大小为2x2的ROI，会将ROI投影到特征图上并进行不均匀划分，然后对每个小网格执行max pooling。这种方法在目标检测和图像理解任务中尤为关键。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.ROI简介

1.ROI是经过最后Conv层后feature map的一个矩形框
2.每个ROI由（r,c,h,w）组成。r,c指的是左上角的坐标；h,w指的是宽和高

ROI Pooling 把一个h x w 大小的格子划分为H x W个格子，
因而每个格子的大小为（h/H, w/W）
注意，无法整除的话就会出现取地板除,对应的取ceiling 

对每个格子分别做max pooling

2.Example

feature map：8x8，
一个ROI，
输出:为2*2

(这里所谓的输入输出都是针对last Conv层).

1.输入固定大小的feature map

在这里插入图片描述
2.region proposal 投影之后位置（左上角，右下角坐标）：（0，3），（7，8）

好像明白了，region proposal是指的image的地方，而ROI指的是Conv层后的feature map上的位置
在这里插入图片描述
3.将其划分为（22）个grids（因为输出大小为22），我们可以得到

在这里插入图片描述

4.对每个grid做max pooling

在这里插入图片描述

说明：在此案例中region proposals 是57大小的，在pooling之后需要得到22的，所以在57的特征图划分成22的时候不是等分的，行是5/2，第一行得到2，剩下的那一行是3，列是7/2，第一列得到3，剩下那一列是4。

ROI Pooling 就是将大小不同的feature map 池化成大小相同的feature map，利于输出到下一层网络中。

参考来源：roi原理以及实现