GoogleNet与深度学习架构解析：Inception、ResNet与轻量化模型-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_51887082/article/details/132511073

GoogleNet

定义网络

论文指出LocalRespNorm 起到的作用并不大，网络搭建过程中可以将其舍弃，也可以用nn.LocalResponseNorm实现,另外在计算输出大小的时候pytorch默认向下取整，如果要向上取整,ceil_mode = True

3*224*224(Conv1)--->64,112,112(Maxpoo1)--->64*56*56(Conv2)--->64*56* 56(Conv3)--->192*2

192*56*56(Maxpool2)--->192*28*28(Inception3a)--->256*28*28(Inception3b)--->480*28*28

(Maxpool3)--->480*14*14(Inception4a)--->512*14*14(Inception4b)--->512*14*14(Inception4c)

--->512*14*14(Inception4d)--->528*14*14(Inception4e)--->832*14*14(Maxpool4)--->832*7*7

(Inception5a)--->832*7*7(Inception5b)--->1024*7*7(AverPool)--->1024*1*1(linear)--->1000*1*1

(输出节点可自己设置)(softmax)

inception(3a) input

inception(3b)

inception(4a)

inception(4b)

inception(4c)

inception(4d)

inception(4e)

inception(5a)

inception(5b)

depth 代表有几个卷积层,当然池化层depth = 0

网络特色

引入了Inception结构融合不同尺度的特征信息

使用1*1的卷积核进行降维以及映射处理

添加两个辅助分类器帮助训练

丢弃全连接层，使用平均池化层(大大减少模型参数)

AlexNet和VGG都只有一个输出层，GoogLeNet有三个输出层(两个辅助分类层)

网络介绍

Inception结构

之前AlexNet ，VGG 都是串行结构，一系列的卷积层和池化层进行串联，

而Inception结构是并行结构，上一层输出之后，将我们所得到的特征矩阵同时输入到四个分支当中进行处理，处理之后将我们所得到的四个分支特征矩阵按深度拼接，得到输出特征矩阵(图一)

(图二) 多了三个1*1的卷积层这三个卷积层都是起到了降维的作用

如何降维

辅助分类器（Auxiliary Classifier）

AverPool--->Conv--->Fc--->Fc--->softmax

Aux_Classifier1(4a):

512*14*14(AverPool1)--->4*4*512

528*14*14(AverPool1)--->4*4*528

ResNet

定义网络

网络特色

具有超深的网络结构(突破1000层)

提出residual[rɪ'zɪdʒʊəl] 模块

使用batch Normalization 加速训练(丢弃dropout)

网络介绍

什么原因造成56层结构的效果不如20层结构

会出现梯度消失,梯度爆炸：假设梯度是小于1的,每向前传播一层,都要乘以一个小于1的梯度,当网络越来越深，梯度就会越趋近于0，反之梯度是大于1的,就会出现梯度爆炸。一般是通过对数据的标准化处理,权重初始化和 Batch Normalization

退化问题通过残差结构来解决退化问题，从右图很清晰的看到,网络层数越多效果越好

残差结构，Residual结构

用虚线框和不用虚线框的根本区别在于实线框可以直接将输入与卷积之后的输出进行叠加,并且叠加之后的输出是我们理想的size和channel,那对于有些操作更改了channel,size就需要虚线框辅助输入,调整到合适的size和channel

下采样操作只在Conv3_x,Conv4_x,Conv5_x中的第一层进行操作即虚线残差结构,stride = 2

并且在这三层不仅调整了高度(宽度),也调整了Channel

注意到Conv2_x: 18,34_layer输入的深度和输出的深度是相符的,不需要虚线残差结构调整深度,只有50,101,152_layer需要虚线调整channel,

64*112*112(MaxPool)--->64*56*56(Conv2_x)--->...最终的输出与输入的channel,size相符

64*112*112(MaxPool)--->64*56*56(Conv2_x)--->...256*56*56最终的输出channel 变化了

需要虚线的残差结构进行channel的调整才能实现残差边与残差块的(+)

Batch Normalization

源于:Batch Normalization详解以及pytorch实验_太阳花的小绿豆的博客-优快云博客

需要注意的是 μ和σ是通过数据计算出来的 ,γ和β是通过反向传播过程中不断训练得到的

主要解决的问题是,在我们将数据进行预处理,归一化之后使得数据在[-1,1]区间,但我们经过多次卷积或者池化操作之后得到的数据不一定还满足这一分布规律.我们想在整个训练样本所对应的每一哥特征层都满足分布规律,Banch Normalization的目的就是使feature map 满足mean = 0 std = 1 的分布规律

每一个通道是指一批数据同一个通道的所有数据的均值和方差

使用Banch Normalization 时需要注意的问题

训练时 training参数设置为Trure 验证时将training参数设置为false 在pytorch中可通过创建模型model.train()方法和model.eval方法控制,在训练过程中在不断的统计mean 与 std,验证过程中使用历史的mean 和std而不是当前所计算的mean,std

batch size 尽可能设置的大一些,设置的越大求的均值和方差越接近整个训练集

建议将 BN层放在Conv 和 Relu之间 ,且卷积层不要使用偏置bias,显然即使设置了偏置结果也是一样的