RoI pooling层详解

RoI Pooling层是一种处理特征图中不同尺寸RoIs的池化方法,确保输出尺寸固定。输入包括特征图和RoIs信息,RoIs来源于如Selective Search或RPN。该层将RoIs映射到特征图上并分割成固定大小的sections,对每个section执行最大值池化,生成固定大小的输出向量。RoI Pooling在Fast RCNN和Faster RCNN等目标检测模型中起到关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RoI pooling层的意义:

RoIs pooling是pooling层的一种,而且是针对RoIs的pooling,特点是输入特征图的尺寸不固定,但是输出特征图的尺寸固定;

什么是ROI呢?
ROI是Region of Interest的简写,指的是在“特征图上的框”;
1)在Fast RCNN中, RoI是指Selective Search完成后得到的“候选框”在特征图上的映射,如下图所示;
2)在Faster RCNN中,候选框是经过RPN产生的,然后再把各个“候选框”映射到特征图上,得到RoIs。

 输入有两部分组成:

  • 特征图:指的是图1中所示的特征图,在Fast RCNN中,它位于RoI Pooling之前,在Faster RCNN中,它是与RPN共享那个特征图,通常我们常常称之为“share_conv”; 
  • rois:在Fast RCNN中,指的是Selective Search的输出;在Faster RCNN中指的是RPN的输出,一堆矩形候选框框,形状为1x5x1x1(4个坐标+索引index),其中值得注意的是:坐标的参考系不是针对feature map这张图的,而是针对原图的(神经网络最开始的输入)

输出:

  • 输出是batch个vector,其中batch的值等于RoI的个数,vector的大小为channel * w * h;RoI Pooling的过程就是将一个个大小不同的box矩形框,都映射成大小固定(w * h)的矩形框;

ROI pooling具体操作如下:

  • 根据输入image,将proposals映射到feature map上ROIs对应位置;
  • 将映射后的区域划分为相同大小的sections(sections数量与输出的维度相同);
  • 对每个section进行max pooling
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值