[Deeplearning]SPP

spp 全名 spatial pyramid pooling 空间金字塔池化

一开始提出来主要是为了解决

在CNN中最后都会跟着一层全连接层,全连接层输入的特征数是固定的,所以我们在输入的时候往往需要固定大小的图片尺寸,但因为实际状况的问题,不能满足这种情况,我们就需要对图片进行缩放,裁剪等操作,在一定程度上会扭曲原始的图像。所以就提出了spp,可以对任意输入的图片固定输出大小。

spp的思路是 对每一个输入的feature map 划分成 16 / 4 / 1 个网格。然后在这三幅划分的网格图中对每个单元进行最大池化,最后把这些结果进行concat。具体如下图。

 图源 sppnet原论文

这样的话不管输入多大尺寸的图片最后得到的输出尺寸大小是固定的。。

yolox里spp代码如下。。

class SPPBottleneck(nn.Module):
    """Spatial pyramid pooling layer used in YOLOv3-SPP"""
    def __init__(self, in_channels, out_channels, kernel_sizes=(5, 9, 13), activation="silu"):
        super().__init__()
        hidden_channels = in_channels // 2
        self.conv1 = BaseConv(in_channels, hidden_channels, 1, stride=1, act=activation)
        self.m = nn.ModuleList(
            [nn.MaxPool2d(kernel_size=ks, stride=1, padding=ks // 2) for ks in kernel_sizes]
        )
        conv2_channels = hidden_channels * (len(kernel_sizes) + 1)
        self.conv2 = BaseConv(conv2_channels, out_channels, 1, stride=1, act=activation)

    def forward(self, x):
        x = self.conv1(x)
        x = torch.cat([x] + [m(x) for m in self.m], dim=1)
        x = self.conv2(x)
        return x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值