ROI Pooling原理

ROI Pooling是一种在深度学习中用于处理不同大小特征图的技术,它将不同尺寸的特征图池化为固定大小,以便于后续处理。该方法通过将输入特征图按ROI划定的矩形区域划分为网格,对每个网格进行最大池化操作。例如,对于一个8x8的特征图和一个输出大小为2x2的ROI,会将ROI投影到特征图上并进行不均匀划分,然后对每个小网格执行max pooling。这种方法在目标检测和图像理解任务中尤为关键。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.ROI简介

1.ROI是经过最后Conv层后feature map的一个矩形框
2.每个ROI由(r,c,h,w)组成。r,c指的是左上角的坐标;h,w指的是宽和高

ROI Pooling 把一个h x w 大小的格子划分为H x W个格子,
因而每个格子的大小为(h/H, w/W)
注意,无法整除的话就会出现取地板除,对应的取ceiling 

对每个格子分别做max pooling

2.Example

feature map:8x8,
一个ROI,
输出:2*2

(这里所谓的输入输出都是针对last Conv层).

1.输入固定大小的feature map

在这里插入图片描述
2.region proposal 投影之后位置(左上角,右下角坐标):(0,3),(7,8)

好像明白了,region proposal是指的image的地方,而ROI指的是Conv层后的feature map上的位置
在这里插入图片描述
3.将其划分为(22)个grids(因为输出大小为22),我们可以得到

在这里插入图片描述

4.对每个grid做max pooling

在这里插入图片描述

说明:在此案例中region proposals 是57大小的,在pooling之后需要得到22的,所以在57的特征图划分成22的时候不是等分的,行是5/2,第一行得到2,剩下的那一行是3,列是7/2,第一列得到3,剩下那一列是4。

ROI Pooling 就是将大小不同的feature map 池化成大小相同的feature map,利于输出到下一层网络中。

参考来源:roi原理以及实现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值