RoI Pooling详解

本文深入解析ROI Pooling在目标检测中的应用,阐述其如何解决大量region proposals带来的性能问题,通过固定大小的feature maps输出,加速训练与测试过程,提高检测精度。

目标检测architecture通常可以分为两个阶段: 
(1)region proposal:给定一张输入image找出objects可能存在的所有位置。这一阶段的输出应该是一系列object可能位置的bounding box。这些通常称之为region proposals或者 regions of interest(ROI),在这一过程中用到的方法是基于滑窗的方式和selective search。 
(2)final classification:确定上一阶段的每个region proposal是否属于目标一类或者背景。 

è¿éåå¾çæè¿°

这个architecture存在的一些问题是:

·产生大量的region proposals 会导致performance problems,很难达到实时目标检测。
·在处理速度方面是suboptimal。
·无法做到end-to-end training。
这就是ROI pooling提出的根本原因,ROI pooling层能实现training和testing的显著加速,并提高检测accuracy。该层有两个输入:

1.从具有多个卷积核池化的深度网络中获得的固定大小的feature maps;
2.一个表示所有ROI的N*5的矩阵,其中N表示ROI的数目。第一列表示图像index,其余四列表示其余的左上角和右下角坐标;
ROI pooling具体操作如下:

1.根据输入image,将ROI映射到feature map对应位置;
2.将映射后的区域划分为相同大小的sections(sections数量与输出的维度相同);
3.对每个sections进行max pooling操作;
这样我们就可以从不同大小的方框得到固定大小的相应 的feature maps。值得一提的是,输出的feature maps的大小不取决于ROI和卷积feature maps大小。ROI pooling 最大的好处就在于极大地提高了处理速度。

ROI pooling example 
我们有一个8*8大小的feature map,一个ROI,以及输出大小为2*2.

1.输入的固定大小的feature map 

è¿éåå¾çæè¿°

2.region proposal 投影之后位置(左上角,右下角坐标):(0,3),(7,8)。 

è¿éåå¾çæè¿°

3.将其划分为(2*2)个sections(因为输出大小为2*2),我们可以得到: 

è¿éåå¾çæè¿°

4.对每个section做max pooling,可以得到: 

è¿éåå¾çæè¿°

整体过程如下: 

è¿éåå¾çæè¿°
说明:在此案例中region proposals 是5*7大小的,在pooling之后需要得到2*2的,所以在5*7的特征图划分成2*2的时候不是等分的,行是5/2,第一行得到2,剩下的那一行是3,列是7/2,第一列得到3,剩下那一列是4。

ROI Pooling 就是将大小不同的feature map 池化成大小相同的feature map,利于输出到下一层网络中。
代码实现


--------------------- 
作者:Elag 
来源:优快云 
原文:https://blog.youkuaiyun.com/u011436429/article/details/80279536 
版权声明:本文为博主原创文章,转载请附上博文链接!

### 深度学习中ROI(感兴趣区域)的选取方法和原理 在深度学习领域,尤其是目标检测任务中,ROI(Region of Interest,感兴趣区域)的选择是一个核心环节。它决定了哪些部分会被进一步分析用于分类或边界框回归。 #### ROI 的定义与重要性 ROI 是指图像中的特定区域,这些区域被认为可能包含感兴趣的物体。通过对这些区域进行提取和处理,可以显著减少计算量并提高检测精度。在两阶段的目标检测框架中,如 Fast R-CNN 和 Faster R-CNN,ROI 提取是中间的关键步骤之一[^2]。 #### ROI 选取的主要方法 1. **Selective Search** Selective Search 是一种传统的 ROI 提取算法,在早期的目标检测工作中被广泛采用。该方法基于超像素分割技术,通过合并相似的超像素来生成候选区域。虽然简单有效,但它依赖于手工设计的特征,并且速度较慢[^1]。 2. **Region Proposal Networks (RPN)** 在 Faster R-CNN 中引入了 Region Proposal Network 来替代 Selective Search。RPN 使用卷积神经网络自动生成候选区域,能够实时运行并与主网络共享卷积特征,从而大幅提升了效率。具体来说,RPN 输出一组矩形对象建议及其对应的得分,表示每个建议成为真实对象的可能性[^2]。 3. **Anchor Mechanism** Anchor机制是在RPN基础上发展出来的一种改进方案。它预先设定了一系列具有不同尺度和宽高比例的锚点(anchor boxes),覆盖整个输入图片的不同位置。然后对于每一个anchor box,预测其是否包含目标以及如何调整以更好地匹配实际目标的位置。这种方法使得模型可以直接从连续空间映射到离散类别标签上,简化了优化过程[^4]。 #### ROI 处理的技术细节 一旦获得了初步的ROIs之后,还需要对其进行标准化处理以便送入后续网络层: - **ROI Pooling**: 这是一种将任意大小的输入转换成固定维度输出的操作。正如前面提到过的那样,Fast R-CNN采用了这种策略——先定位好各个proposals所在处的具体范围;再按照一定规则划分网格单元格;最后统计各子区域内最大值或者平均值得到最终结果向量形式表达的数据结构供下一步骤继续运算使用[^2]。 - **ROI Align**: 考虑到传统ROI pooling可能会因为量化误差而导致信息丢失问题,因此提出了更精确版本即ROI align。不同于前者简单的四舍五入近似法获取采样点坐标位置关系的做法,后者采取双线性插值的方式准确估计所需数值,进而保留更多原始信号特性有助于提升整体性能表现水平达到更高标准要求下的应用场合需求满足情况良好效果明显优于之前同类产品解决方案所提供出来的成果展示方面来看确实具备较强竞争力优势特点突出值得关注研究探讨价值较高。 ```python def roi_pooling(input_feature_map, rois, pooled_height=7, pooled_width=7): """ Perform ROI Pooling on the input feature maps given a set of ROIs. Args: input_feature_map: Tensor containing the feature map from CNN backbone. rois: List or tensor specifying regions of interest as [batch_index, x_min, y_min, x_max, y_max]. pooled_height: Height dimension after pooling operation. pooled_width: Width dimension after pooling operation. Returns: Pooled features corresponding to each ROI with fixed size. """ num_rois = len(rois) outputs = [] for i in range(num_rois): batch_ind, x_min, y_min, x_max, y_max = rois[i] region = input_feature_map[int(batch_ind), :, int(y_min):int(y_max)+1, int(x_min):int(x_max)+1] pooled_region = torch.nn.functional.adaptive_max_pool2d(region, (pooled_height, pooled_width)) outputs.append(pooled_region) return torch.cat(outputs, dim=0) ```
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值