RoI Pooling 和SPP 区别

最新推荐文章于 2025-10-24 20:39:36 发布

转载最新推荐文章于 2025-10-24 20:39:36 发布 · 829 阅读

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/qq_35586657/article/details/97885290?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161917850916780271542877%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=161917850916780271542877&biz_id=0&utm_med

知识专栏收录该内容

21 篇文章

订阅专栏

本文详细介绍了SPP（Spatial Pyramid Pooling）和ROIPooling两种池化操作的区别。SPP允许在不同尺度上进行池化，输出固定尺寸的特征，而ROIPooling则针对特定区域进行单尺度池化。这两种技术常用于处理不同大小的输入特征，确保网络输出的一致性。

区别

两者起到的作用是相同的，把不同尺寸的特征输入转化为相同尺寸的特征输出。
SPP针对同一个输入使用了多个不同尺寸的池化操作，把不同尺度的结果拼接作为输出；
而ROI Pooling可看作单尺度的SPP，对于一个输入只进行一次池化操作。

详见此博客
spp 和RoI Pooling 差异

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

半棵树dd

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【YOLO】RoI Pooling 与 SPP 的核心区别详解

浩瀚之水的专栏

05-06

264

RoI Pooling（Region of Interest Pooling）和 SPP（Spatial Pyramid Pooling）都是用于处理不同尺寸输入的关键模块，但设计目标、应用场景和实现方式存在显著差异。

SPP、ROI Pooling、ROI Align区别

weixin_42486139的博客

12-28

910

三者设计初衷都是将feature map映射为固定维度，丢进全连接层 SPP 空间金字塔池化 spatial pyramid pooling 假设输入feature map的尺寸为H x W x C，使用一个H x W尺寸的pooling层进行处理，那么每一个通道C变成了一个值，整个输入得到了一个C维的输出；再分别用H/2 x W/2和H/4 x W/4尺寸的pooling层处理，得到了4xC和16xC维的输出，把三个结果concat在一起变成了一个21xC维的输出，其大小和输入的H与W无关。简而

参与评论您还未登录，请先登录后发表或查看评论

ROI Pooling 与 SPP 理解

最新发布

彬彬侠的博客

10-24

1102

RoI池化是计算机视觉中物体检测的关键技术，最早由Fast R-CNN提出。它将不同尺寸的感兴趣区域转换为固定特征向量，通过在共享特征图上操作大幅提升检测效率（加速10-100倍）。虽然存在量化误差等局限，但该技术为后续RoI Align等改进奠定了基础，广泛应用于自动驾驶、安防等领域。其核心思想源于空间金字塔池化(SPP)，通过网格划分和最大池化实现特征标准化，支持了两阶段检测器的发展。

RoIPooling与RoIAlign的区别

weixin_36670529的博客

05-15

680

目录一、RoIPooling与RoIAlign 1.1、RoIPooling 1.2、RoIAlign 二、双线性插值法（图像插值法） 2.1、为什么要用双线性插值法 2.3、双线性插值法的推导过程一、RoIPooling与RoIAlign 1.1、RoIPooling RolPooling可以使生成的候选框region proposal映射产生固定大小的featur...

SPPNet(空间金字塔池化)与RoI Pooling

jialibang的博客

09-04

1513

转载自：https://www.bilibili.com/video/BV1st411P7DW 比例池化特征共享第一个池化层，将feature map分成４x4份然后池化，第二个池化层将feature map 分２x２份，第三个池化层为１x 1。总共输出16+4+1个数就是要输出的21个特征。　对输入图像提取特征，然后在特征层进行区域划分。由于输入大小可变，spp训练的时候就可以把训练图片按比例缩放。(相同的图片缩放至不同的尺度，相当于扩充了数据集) ...

【温故知新】RoI Pooling、RoI Align、ROI Warping pooling、PS-ROI Pooling、PS-ROI Align、PrROI Pooling

upup

08-20

2153

RoI Pooling 在Fast R-CNN首次出现了ROI Pooling 下面以Fast R-CNN为例可以看到先对原图进行卷积，得到卷积层，在将Selective Search选择的proposals对应到卷积层。由于proposal尺寸不一样，需要进行RoI pooling，比如下面是卷积层：有一个proposals：划分网格，paper里设置的是7 * 7，下图是2 * 2：每个网格选最大值(max pooling一个意思)：动画：和SPP对比，就是只有一层（尺度）的SP

RPN、ROI Pooling 与 ROI Align

啥也不会的博客

11-24

607

RPN层、ROI Pooling

目标检测中的池化——RoI Pooling、SPP等

m0_38064529的博客

07-03

617

SPP RoI Pooling

SPP（Spatial Pyramid Pooling）

fangweijiex的博客

06-13

1487

使用多个窗口(pooling窗口，上图中蓝色，青绿，银灰的窗口，我们先看最左边有16个蓝色小格子的图，它的意思是将从(conv_5)得到的特征映射分成16份，另外16X256中的256表示的是channel，即SPP对每一层都分成16份(不一定是等比分，原因看后面的内容就能理解了)。中间的4个绿色小格子和右边1个紫色大格子也同理，即将特征映射分别分成4X256和1X256份那么将特征映射分成若干等分是做什么用的呢？我们看SPP的名字就是到了，是做池化操作，一般选择MAX Pooling，即对每一份进

spatial pyramid pooling(spp)

AliceH1226的博客

12-22

1779

没有spp的网络的缺点 1，现有的dcnn需要固定尺寸的图片作为输入，这样对图片的宽高比和尺寸大小作出了限制。 2，如果图片尺寸是任意的，在输入之前需要做裁剪或图像扭曲(crop or warp(resize))来适应网络的固定尺寸输入。剪切后的图片可能不能包含整个物体。扭曲后的内容可能会导致几何变形。识别准确率会因为物体内容缺失或变形而减低。使用spp的好处 1，spp能生成一个固定长度的输出，不管输入图片大小是否相同。 2，spp使用多级spatial bins，而sliding window poo

SPP:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition(阅读)

深藏功与名

10-07

2954

SPP-Net已经是很早之前读过的，没有记录，现在整理检测系列的这几篇，这里简单在过一遍。论文中最重要的部分是SPM，SPM的详细阅读见博客。先看一下整体sppnet_poster

SPP-net：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

xbcReal的博客

07-25

944

一提到SPP-net就不可避免的会提到R-CNN，那这两者之间是个什么关系呢？通过之前的博客也可以了解到，R-CNN它是用于目标检测的一个框架，它使用了selective search提出了proposals，然后训练AlexNet提取特征，最后通过训练SVM分类器完成分类，从而最终完成detection的功能。那么SPP-net也是一个新的框架吗？我认为应该不能算是一个新的框架，事实上，SPP-n

空间金字塔池化（Spatial Pyramid Pooling）

酒酿小圆子呀～

04-20

3998

上面这个图可以看出SPPnet和RCNN的区别，首先是输入不需要放缩到指定大小。其次是增加了一个空间金字塔池化层，还有最重要的一点是每幅图片只需要提取一次特征。SPPnet虽然解决了CNN输入任意大小图片的问题，但是还是需要重复为每个region proposal提取特征啊，能不能我们直接根据region proposal定位到他在卷积层特征的位置，然后直接对于这部分特征处理呢？答案是肯定的。

SPP-net(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

zzh0908的博客

10-18

643

Abstract SPP-net提出了空间金字塔池化层来解决CNN只是输入固定尺寸的问题，因为单固定尺寸的输入会影响识别效果，并且对于多尺度图像的情况下鲁棒性不好。SPP-net很好的解决了以上问题，对于任意尺度图像都可以提取出固定维度的特征，实验证明SPP-net对分类任务(不同网络结构)和目标探测任务都有积极的作用。RCNN则是将候选区送入模型，这样会非常耗时，而且SPP-net网络以整张...

【目标检测】SPP-Net (Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

SmileLing的专栏

04-12

1万+

K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014. Kaiming的这篇paper，是在R-CNN的基础上提出了空间金字塔变换层(Spatial Pyramid Pooling)...

SPP pooling layer

yuanchheneducn的博客

10-18

3427

参考：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual RecognitionSPP_net的提出因为传统的CNNs网络只能接受固定size的images。实际上，卷积层可以输入任意尺度的, 但这样就会导致输出的feature map 大小不同；而InnerProduct layer 的输入必须是固定的。因此在CNN

一文搞懂SPP（Spatial pyramid pooling）

NanHNU的博客

12-22

7881

1、简介空间金字塔池化，使得任意大小的特征图都能够转换成固定大小的特征向量，这就是空间金字塔池化的意义（多尺度特征提取出固定大小的特征向量），送入全连接层。整体框架大致为：输入图像，卷积层提取特征，空间金字塔池化提取固定大小特征，全连接层。具体的流程图如下： 2、具体算法的大体流程输入图像，进行多尺度提取特征，融合特征，传入全连接层 3、关键步骤解释

spp layer与ROI Pooling的区别

12-27

### SPP 层与 ROI Pooling 的区别空间金字塔池化 (Spatial Pyramid Pooling, SPP) 和感兴趣区域池化 (Region of Interest Pooling, ROI Pooling) 是两种用于处理可变尺寸输入图像的技术，在深度学习目标检测任务中广泛应用。 #### 空间金字塔池化(SPP) SPP 层允许任意大小的输入图片被送入神经网络，而不需要固定的输入尺寸。其核心思想是在多个尺度上提取特征图的不同层次的空间信息，并将其转换成固定长度的表示形式[^1]。具体来说： - **多级划分**：将最后一个卷积层产生的特征映射划分为若干个不同级别的子区域； - **不变形适应性**：无论原始图像有多大变化，经过此过程后都能获得相同维度的结果向量； - **灵活性高**：可以在整个网络结构之前加入该模块，使得前馈传播过程中能够接受任意分辨率的数据作为输入； ```python def spatial_pyramid_pool(previous_conv, num_sample, previous_conv_size, out_pool_size): """ 实现简单的空间金字塔池化函数参数: previous_conv: 上一层输出的张量 num_sample: 样本数量 previous_conv_size: 输入特征图尺寸 out_pool_size: 输出池化级别列表返回值: sppool_tensor: 经过SPP后的张量 """ for i in range(len(out_pool_size)): window_w = np.ceil(previous_conv_size[0] / out_pool_size[i]) window_h = np.ceil(previous_conv_size[1] / out_pool_size[i]) maxpool_out = tf.nn.max_pool( input=previous_conv, ksize=[1, int(window_w), int(window_h), 1], strides=[1, int(window_w), int(window_h), 1], padding='SAME' ) if(i==0): sppool_tensor=maxpool_out.reshape(num_sample,-1) else: sppool_tensor=tf.concat([sppool_tensor,maxpool_out.reshape(num_sample,-1)],axis=-1) return sppool_tensor ``` #### 感兴趣区域池化(ROI Pooling) 相比之下，ROI Pooling 主要应用于 Fast/Faster R-CNN 中的目标检测框架内，专门用来处理候选框（proposals）。对于每一个建议窗格（proposal），都会执行如下操作以获取固定大小的特征表达[^2]： - **单一定位**：针对特定位置的兴趣区进行裁剪和缩放至预定规格； - **局部聚焦**：仅作用于由 Region Proposal Network 提供的具体矩形区域内； - **标准化输出**：确保最终得到的特征矩阵具有统一的高度宽度参数； ```python import tensorflow as tf def roi_pooling(input, rois, pooled_height, pooled_width): ''' 定义roi pooling 函数参数: input: 卷积层输出的feature map rois: 建议框的位置坐标集合 pooled_height: 裁剪并调整大小后的高度 pooled_width: 裁剪并调整大小后的宽度返回值: pool_result: 对应各个rois的pooled feature maps组成的tensor ''' batch_ids = [] xform_rois = [] for b in range(rois.shape[0]): for r in range(rois[b].shape[0]): h_start = rois[b][r][0] w_start = rois[b][r][1] h_end = rois[b][r][2] w_end = rois[b][r][3] height = h_end - h_start + 1 width = w_end - w_start + 1 bin_size_h = height / float(pooled_height) bin_size_w = width / float(pooled_width) for ph in range(pooled_height): for pw in range(pooled_width): hstart = h_start + ph * bin_size_h wstart = w_start + pw * bin_size_w hend = min(h_start+(ph+1)*bin_size_h,h_end) wend = min(w_start+(pw+1)*bin_size_w,w_end) batch_ids.append(b) xform_rois.append([hstart, wstart, hend, wend]) output = tf.image.crop_and_resize(image=input, boxes=xform_rois, box_ind=batch_ids, crop_size=(pooled_height,pooled_width)) return output ```