ShuffleNetv1、v2网络详解、使用pytorch搭建模型ShuffleNetv2并基于迁移学习训练

本文详细解析了ShuffleNetv1网络的channel shuffle思想与ShuffleNetunit结构,以及ShuffleNetv2的高效网络准则和新型block设计。涉及参数配置、模型搭建和训练实践。

1.ShuffleNetv1网络详解

另一种轻量级网络
网络创新点:
(1)提出了channel shuffle(通道重排)的思想
(2)在ShuffleNet Unit中全是GConv和DWConv

(1)channel shuffle的思想

在这里插入图片描述
在很多网络中都有1x1逐点卷积,这会造成有限的通道之间充满约束,造成精度损失;

可以应用通道稀疏连接,例如组卷积(group convolutions),通过确保每个卷积操作仅在对应的输入通道组上,组卷积可以显著的降低计算损失;

如果多个组卷积堆叠在一起,会有一个副作用:GConv虽然能够减少参数与计算量,但GConv中不同组之间信息没有交流,如图中(a)所示,降低了信息表示能力。

原论文作者提出channel shuffle的思想:首先将输入特征矩阵通过GConv卷积,假设在GConv1中有3个组,那么就对经过GConv1卷积得到的特征矩阵再划分成3份,将每个组中的第一份组合在一起、第二份组合在一起、第三份组合在一起(如b),这样就得到通过channel shuffle的特征矩阵(如c)。

(2)ShuffleNet unit

在这里插入图片描述
作者在原论文中在ResNeXt网络中1x1的卷积(图a)占据了93.4%的计算量,因此ShuffleNetv1中将其都替换成组卷积(图b、c):

1、当Stride==1的时候,采用左边的模块,为了适配和恒等映射做通道融合,配合BN层和ReLU激活函数构成基本单元。

2、当Stride==2的时候,采用右边的模块,在辅分支加入步长为2的3×3平均池化,原本做元素相加的操作转为了通道级联,这扩大了通道维度,增加的计算成本却很少。

2.ShuffleNetv1网络参数

在这里插入图片描述
在原论文中使用最多的是g=3版本(即groups=3),其中Stage为将ShuffleNet unit中的block进行堆叠。

每个Stage中的第一个block,采用的是步长为2的block;第二个block采用的是步长为1的block。对于下一个stage,输出特征矩阵channel会进行翻倍

Stage2中,其第一个block的第一个1x1卷积层不使用组卷积,而使用1x1普通卷积,因为Stage2的输入特征矩阵为24,比较小。

3.ShuffleNetv2网络详解

目前大部分的轻量级模型在对比模型速度时用的指标是FLOPs(指浮点运算数,可以理解为计算量),这个指标可以用来衡量算法或模型的复杂度。

在ShuffleNetv2中作者发现计算复杂度不能直接看FLOPs,并提出了4条设计高效网络准则
1、卷积层的输入和输出特征通道数相等时MAC最小,此时模型速度最快;
2、过量使用组卷积会增加MAC(memory access cost);
3、网络碎片化会降低并行度;
4、不能忽略元素级操作,比如ReLU和Add,虽然它们的FLOPs较小,但是却需要较大的MAC。
基于这四条准则提出了新的block设计

(1)新的block设计

在这里插入图片描述
图中(a)(b)为ShuffleNetv1的两种block,图中©(d)为ShuffleNetv2的两种block。(步长为1和2时)

在©中将每个输入特征矩阵channel划分成两个branch部分(c-c’,c’(c’=c/2)),对应Channel Split

根据准则3要减少模型的碎片化程度,所以在捷径分支没有操作主分支由三个卷积层组成(用于相同的输入和输出channel,满足准则1),两个1x1卷积不使用组卷积(满足准则2);

两个分支通过Concat进行拼接(满足准则1),并且不对最终的输出进行ReLU激活(满足准则4)。(add是数值相加,concat是维度相加)

在(b)中去掉了Channel Split。

1、当Stride==1的时候,采用左边的模块,由于残差边没有卷积,因此宽高不变,主要用于加深网络层数

2、当Stride==2的时候,采用右边的模块,由于残差边有卷积,因此宽高可变,主要用于压缩特征层的宽高,进行下采样

4.ShuffleNetv2网络参数

在这里插入图片描述
与ShuffleNetv2大概框架相同,不同之处为多了Conv5

5.使用pytorch搭建模型ShuffleNetv2

1.model.py

channel_shuffle的实现

在这里插入图片描述

def channel_shuffle(x: Tensor, groups: int) -> Tensor:               #channel_shuffle的实现

    batch_size, num_channels, height, width = x.size()               #获取传入的特征矩阵的size
    channels_per_group = num_channels // groups                      #将channel划分为groups组,channels_per_group对应每个组中channel的个数

    # reshape
    # [batch_size, num_channels, height, width] -> [batch_size, groups, channels_per_group, height, width]
    x = x.view(batch_size, groups, channels_per_group, height, width)   #改变通道排列顺序

    x = torch.transpose(x, 1, 2).contiguous()                           #通过transpose将维度1(groups)和维度2(channels_per_group)的信息调换,相当于转置

    # flatten
    x = x.view(batch_size, -1, height, width)                           #通过view方法将其还原成batch_size、channel、height、width

    return x

block的实现

class InvertedResidual(nn.Module):                                      #shufflenet中的block
    def __init__(self, input_c: int, output_c: int, stride: int):
        super(InvertedResidual, self).__init__()

        if stride not in [1, 2]:                                        #倒残差结构中步长只可能等1和2
            raise ValueError("illegal stride value.")
        self.stride 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值