在上一节的内容中我们已经介绍了残差网络的相关知识,并使用数学知识进行了原理解释,我们知道深度网络随着层数的增加,很容易造成“退化”和“梯度消失”的问题,训练数据的过拟合,ResNet中给出了一种解决方案:增加一个identity mapping,今天的内容主要是使用残差网络处理MNIST手写数字识别数据集。实现的流程主要如下所示:1导入相关模块2 定义Block类3 定义相关函数4 求解损失函数第一是先导入MNIST数据集,定义权重和偏置量:
在第二步中,我们根据输入和输出的尺寸是否相同,分为identity_block和conv_block,每种block都有如下两种模式:3卷积和2卷积形式,3卷积的速度的要更快一些。定义identity_block层的代码如下,下面是有3个卷积层,在输出的时候把输入值x_input和经过3层卷积层后输出的x相加,使用激活函数relu后输出得到result
下面是定义conv_block模块,由于该模块定义时输入和输出尺度不同,所以我们使用一个卷积层改变原来输入x_input的尺寸;再和3层卷积层操作后输出的x进行融合,通过一个激活函数relu,得到result