SPP全称为Spatial Pyramid Pooling,即空间金字塔池化,听名字就知道是对RCNN的一种变形,目的是为了解决RCNN输入图像的大小固定(224*224)的问题,因为真实照片中的物体的大小并不都一样,对图像就行wrap或者切割,不可避免会造成图像的失真,从而增大运算结果的误差。
SPP与RCNN最大的不同就是SPP使用了一个全连接层,而不进行微调,并且计算region propsal时使用了多个region,从而只计算一次,避免了RCNN中的重复计算。
1、结构比较:
RCNN
SPP
2、RCNN固定输入的原因:
理论上说conv layers(卷积层)可以接受任意大小的输入,RCNN固定输入的限制来源于fc layers(全连接层)
spp使用一个spp layers,位于conv layers和fc layers之间,接受任意大小的输入,但是产生固定大小的输出(以匹配全连接层),来取消对输入的限制。