空间金字塔池化(Spatial Pyramid Pooling, SPP)原理和代码实现(Pytorch)

最新推荐文章于 2025-05-09 14:00:00 发布

aiwanghuan5017

最新推荐文章于 2025-05-09 14:00:00 发布

阅读量4.9k

点赞数 13

文章标签：人工智能 matlab python

原文链接：http://www.cnblogs.com/marsggbo/p/8572846.html

版权

空间金字塔池化(SPP)解决CNN输入图像大小固定问题，允许输入高宽比任意。SPP层通过不同尺寸的池化区域转换特征映射，使其在全连接层前变为固定大小。本文介绍了SPP的原理、公式和Python(PyTorch)实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

想直接看公式的可跳至第三节 3.公式修正

一、为什么需要SPP

首先需要知道为什么会需要SPP。

我们都知道卷积神经网络(CNN)由卷积层和全连接层组成，其中卷积层对于输入数据的大小并没有要求，唯一对数据大小有要求的则是第一个全连接层，因此基本上所有的CNN都要求输入数据固定大小，例如著名的VGG模型则要求输入数据大小是 (224*224) 。

固定输入数据大小有两个问题：

1.很多场景所得到数据并不是固定大小的，例如街景文字基本上其高宽比是不固定的，如下图示红色框出的文字。

2.可能你会说可以对图片进行切割，但是切割的话很可能会丢失到重要信息。

综上，SPP的提出就是为了解决CNN输入图像大小必须固定的问题，从而可以使得输入图像高宽比和大小任意。

二、SPP原理

更加具体的原理可查阅原论文：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

上图是原文中给出的示意图，需要从下往上看:

首先是输入层(input image),其大小可以是任意的
进行卷积运算，到最后一个卷积层(图中是\(conv_5\))输出得到该层的特征映射(feature maps)，其大小也是任意的
下面进入SPP层
- 我们先看最左边有16个蓝色小格子的图，它的意思是将从

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。