《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》论文解读
本文来自Kaiming He大神。
上文说到R-CNN的最大瓶颈是2k个候选区域都要经过一次CNN,速度非常慢。Kaiming He大神最先对此作出改进,提出了SPP-net,最大的改进是只需要将原图输入一次,就可以得到每个候选区域的特征。
概述
在R-CNN中,候选区域需要进过变形缩放,以此适应CNN输入,那么能不能修改网络结构,使得任意大小的图片都能输入到CNN中呢?作者提出了spatial pyramid pooling结构来适应任何大小的图片输入。
网络结构
为什么CNN需要固定输入大小?卷积层和池化层的输出尺寸都是和输入尺寸相关的,它们的输入是不需要固定图片尺寸的,真正需要固定尺寸的是最后的全连接层。
由于FC层的存在,普通的CNN通过固定输入图片的大小来使得全连接层输入固定。作者不这样思考,既然卷积层可以适应任何尺寸,那么只需要在卷积层的最后加入某种结构,使得后面全连接层得到的输入为固定长度就可以了。这个结构就是spatial pyramid pooling layer:

SPP-net由Kaiming He提出,解决了R-CNN中2k个候选区域需独立通过CNN的问题。它引入Spatial Pyramid Pooling层,允许任意大小的图片输入,只需将原图输入一次即可提取所有候选区域特征,显著提高检测速度。SPP-net在训练时使用多尺寸图片共享参数,检测阶段通过ROI在特征图上提取固定长度的特征向量,简化了R-CNN的特征提取步骤,但其CNN的conv层在微调时无法继续训练。
最低0.47元/天 解锁文章
4311

被折叠的 条评论
为什么被折叠?



