SPP-Net论文详解

最新推荐文章于 2025-10-13 15:12:21 发布

原创

最新推荐文章于 2025-10-13 15:12:21 发布 · 5.9w 阅读

106

410 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #SPP-Net #机器学习 #深度学习

SPP-Net是出自2015年发表在IEEE上的论文-《Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition》。

在此之前，所有的神经网络都是需要输入固定尺寸的图片，比如224*224（ImageNet）、32*32(LenNet)、96*96等。这样对于我们希望检测各种大小的图片的时候，需要经过crop，或者warp等一系列操作，这都在一定程度上导致图片信息的丢失和变形，限制了识别精确度。而且，从生理学角度出发，人眼看到一个图片时，大脑会首先认为这是一个整体，而不会进行crop和warp，所以更有可能的是，我们的大脑通过搜集一些浅层的信息，在更深层才识别出这些任意形状的目标。

为什么要固定输入图片的大小？

卷积层的参数和输入大小无关，它仅仅是一个卷积核在图像上滑动，不管输入图像多大都没关系，只是对不同大小的图片卷积出不同大小的特征图，但是全连接层的参数就和输入图像大小有关，因为它要把输入的所有像素点连接起来,需要指定输入层神经元个数和输出层神经元个数，所以需要规定输入的feature的大小。
因此，固定长度的约束仅限于全连接层。以下图为例说明：

作为全连接层，如果输入的x维数不等，那么参数w肯定也会不同，因此，全连接层是必须确定输入，输出个数的。

SPP-Net是如何调整网络结构的？

最低0.47元/天解锁文章

35 条评论

Joker_DDDu 2023.06.04
感觉你说的不太对既然我们都通过cnn提取出来了整张图片的特征，为何又要通过ss的区域进行特征提取，spp层的作用不是用来产生固定大小的输出的嘛
- woe007回复Joker_DDDu 2023.06.05
  因为RCNN是对每个候选框做一次cnn，而SPP-net对整图一次cnn，但还要找到对应候选框的区域，此时候选框的大小不一，所以用SPP产生固定大小输出。整图的cnn提取的是相对整图的特征，全局特征，后续对候选框区域再提取特征提取的就是候选框区域的，粒度更细。SPP里面还会进行多尺度的特征提取

keep learning1 2023.04.21
为什么最开始是输出21维特征，多尺度训练时又输出14维特征？
- keep learning1回复keep learning1 2023.04.21
  好文，点赞收藏了

猫与歌者 2022.10.05
你好，请问有复现的代码么

羊同学学Python 2021.10.07
256是什么意思
- 小鱼XXXD回复羊同学学Python 2022.06.22
  通道数，在这不是三通道的通道，而是256个卷积核产生的256不同的通道。

Oyynice 2021.05.19
1

郭_00 2020.11.17
为啥要缩放到min(w,h)=s

TechGuide 2020.06.12
你好，看了你的文章有一个问题，既然spp是为了解决input shape固定的问题，那如果输入的图片尺寸（比如2000张以上）每张都不一样，应该如何处理呢？例子里只有两种输入尺寸。能否给出一些您的观点，在线等。
- 草洛白回复TechGuide 2024.04.02
  我也有该疑问很迷惑qaq 所以到底能不能直接输入都不一样尺寸的图片呢

Robin C 2020.01.14
4096咋算出来的？

肥宅xiaofu 2019.12.15
有点儿不理解为什么要将原图上的proposal,映射到卷积之后得到的特征图上，做这样的一步尺寸变换，这样究竟能干什么呢？？
- VAE has回复肥宅xiaofu 2019.12.18
  [reply]qq_38767074[/reply] 为了减少运算量啊！不然对2K个候选区域一个个用CNN作特征提取多费事，直接提取一次所有特征，然后找出在上面找出候选区的特征它不香吗？

huangwenning 2019.09.15
有个疑问，假设feature map的长宽为7X7,要映射为4X4，那么计算后的kernal size = ceil(7/4)=2, stride = floor(7/4)=1,但是卷积后的大小为 floor((7-2)/1)+1 = 6,明显不等于4，是我理解错了吗？
- 吴sp回复Devils_Never_Cry 2019.11.06
  [reply]m0_38014304[/reply] 因为你没有考虑到padding处理（包括原论文里也有点忽略padding的计算）,
- Devils_Never_Cry回复huangwenning 2019.10.11
  [reply]huangwenning[/reply] 老哥你这个疑问有答案了吗?我发现7x7映射到4x4不行,但映射到3x3按照公式计算是没有问题的,是不是只支持3x3以下啊= =