b站这个Up主讲的挺好,就是莫名其妙搞个背景音乐怪怪的。。。视频讲解
Spatial Pyramid Pooling(SPP)中文叫空间金字塔池化
SPP目的:这个原理要解决的是传统CNN网络对输入图片尺寸要固定这个限制,比如AlexNet中的输入图片都有固定此村224×224,RCNN中为了讲Proposals 做CNN卷积提取特征也得先将不同大小的Proposal经过wrap缩放成同一大小。
为什么CNN要求输入的图片尺寸固定呢?
因为CNN中的最后的全连接层的输入尺寸是固定的(别问我全连接层为什么输入尺寸是固定的/狗头),所以从全连接层倒推到前面的卷积层,卷积层的输入也得是固定的了。
为什么作者要解决这样的限制呢,固定大小不行吗?
那就得说到以R-CNN为代表的以深度学习来解决目标检测的算法模型了,RCNN首先用selective search的方法冲图片中选出2000个region proposal,然后分别将这些proposal缩放为统一大小后传入CNN进行前向传播得到各个proposal的feature map,然后再使用全连接对这些feature map作分类处理。
这样效率就非常低下,因为一张图片就得经过2000次CNN的前向传播,而且这些proposal中很多重叠的区域,十分浪费资源,虽然最终RCNN的精确度挺高,但是无论是空间还是时间都消耗很大。
所以为了解决这个问题,我们首先就得解决CNN对图片大小输入固定的要求!这样我们就可以先提取整个图片的特征,然后将各个proposal映射到这个feature map上,对应每个proposal截取feature map上对应的一部分,得到若干小的feature map,然后将这些大小各异的feature map输入全连接层进行接下来的操作。
解决CNN对图片大小的输入实际上的切入点就是在最后一个卷积层
Spatial Pyramid Pooling(SPP)原理简介
最新推荐文章于 2025-10-24 17:51:00 发布
介绍了SPP(空间金字塔池化)如何解决传统CNN网络对输入图片尺寸固定的限制,提高目标检测算法如R-CNN的效率。通过SPP层可以在不同大小的featuremap上提取固定长度的特征向量。

最低0.47元/天 解锁文章
3983

被折叠的 条评论
为什么被折叠?



