spp 全名 spatial pyramid pooling 空间金字塔池化
一开始提出来主要是为了解决
在CNN中最后都会跟着一层全连接层,全连接层输入的特征数是固定的,所以我们在输入的时候往往需要固定大小的图片尺寸,但因为实际状况的问题,不能满足这种情况,我们就需要对图片进行缩放,裁剪等操作,在一定程度上会扭曲原始的图像。所以就提出了spp,可以对任意输入的图片固定输出大小。
spp的思路是 对每一个输入的feature map 划分成 16 / 4 / 1 个网格。然后在这三幅划分的网格图中对每个单元进行最大池化,最后把这些结果进行concat。具体如下图。
图源 sppnet原论文
这样的话不管输入多大尺寸的图片最后得到的输出尺寸大小是固定的。。
yolox里spp代码如下。。
class SPPBottleneck(nn.Module):
"""Spatial pyramid pooling layer used in YOLOv3-SPP"""
def __init__(self, in_channels, out_channels, kernel_sizes=(5, 9, 13), activation="silu"):
super().__init__()
hidden_channels = in_channels // 2
self.conv1 = BaseConv(in_channels, hidden_channels, 1, stride=1, act=activation)
self.m = nn.ModuleList(
[nn.MaxPool2d(kernel_size=ks, stride=1, padding=ks // 2) for ks in kernel_sizes]
)
conv2_channels = hidden_channels * (len(kernel_sizes) + 1)
self.conv2 = BaseConv(conv2_channels, out_channels, 1, stride=1, act=activation)
def forward(self, x):
x = self.conv1(x)
x = torch.cat([x] + [m(x) for m in self.m], dim=1)
x = self.conv2(x)
return x