深度学习（一）：卷积神经网络与手写数字识别

最新推荐文章于 2023-08-09 23:41:57 发布

原创

最新推荐文章于 2023-08-09 23:41:57 发布 · 3.2k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #神经网络 #手写数字识别

本文介绍了卷积神经网络（CNN）的基础结构和优势，特别是在图像识别中的应用。通过使用tensorflow实现CNN对MNIST手写数字识别，达到了96.83%的准确率。同时，文章还探讨了CNN的卷积层、池化层和全连接层，并介绍了TensorBoard作为可视化工具在理解和优化模型上的帮助。

首先介绍了卷积神经网络的基本结构，深入分析了卷积神经网络的原理和优势，选择卷积神经网络做图像识别和手写数字识别的原因。并使用tensorflow框架实现卷积神经网络去训练MNIST数据集，并测试一下MNIST的测试集，经过训练结构的搭建和一些列参数调整，得出最后的准确率。

其次为了更方便TensorFlow程序的理解、调试与优化，本文简单介绍了谷歌发布的TensorBoard 的可视化工具，用 TensorBoard 来展现TensorFlow 图像，绘制图像生成的定量指标图以及附加数据。更加直观的观察神经网络的结构，并通过图像获得训练过程中各参数的变化等。

一、卷积神经网络概述

卷积神经网络（CNN：Convolutional neural networks）或深度卷积神经网络（DCNN：deep convolutional neural networks）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一，它跟其它类型的神经网络大有不同。它们主要用于处理图像数据，但可用于其它形式数据的处理，如语音数据。对于卷积神经网络来说，一个典型的应用就是给它输入一个图像，而后它会给出一个分类结果。也就是说，如果给它一张猫的图像，它就输出“猫”；如果给它一张狗的图像，它就输出“狗”。

卷积神经网络结构可以分为以下三个层级：

1、输入层

卷积神经网络的输入层可以处理多维数据，常见地，一维卷积神经网络的输入层接收一维或二维数组，其中一维数组通常为时间或频谱采样；二维数组可能包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组。由于卷积神经网络在计算机视觉领域有广泛应用，因此许多研究在介绍其结构时预先假设了三维输入数据，即平面上的二维像素点和RGB通道。

与其它神经网络算法类似，由于使用梯度下降进行学习，卷积神经网络的输入特征需要进行标准化处理。具体地，在将学习数据输入卷积神经网络前，需在通道或时间/频率维对输入数据进行归一化，若输入数据为像素，也可将分布于的原始像素值归一化至区间。输入特征的标准化有利于提升算法的运行效率和学习表现。

2、隐含层

卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑，在一些更为现代的算法中可能有Inception模块、残差块（residual block）等复杂构筑。在常见构筑中，卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数，而池化层不包含权重系数，因此在文献中，池化层可能不被认为是独立的层。以LeNet-5为例，3类常见构筑在隐含层中的顺序通常为：输入-卷积层-池化层-卷积层-池化层-全连接层-输出。

2.1.卷积计算层（CONV layer）

卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量（bias vector），类似于一个前馈神经网络的神经元（neuron）。卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连，区域的大小取决于卷积核的大小，在文献中被称为“感受野（receptive field）”，其含义可类比视觉皮层细胞的感受野。卷积核在工作时，会有规律地扫过输入特征，在感受野内对输入特征做矩阵元素乘法求和并叠加偏差量。

2.2 卷积层参数

卷积层参数包括卷积核大小、步长和填充，三者共同决定了卷积层输出特征图的尺寸，是卷积神经网络重要的超参数。其中卷积核大小可以指定为小于输入图像尺寸的任意值，卷积核越大，可提取的输入特征越复杂。卷积步长定义了卷积核相邻两次扫过特征图时位置的距离，卷积步长为1时，卷积核会逐个扫过特征图的元素，步长为n时会在下一次扫描跳过n-1个像素。

由卷积核的交叉相关计算可知，随着卷积层的堆叠，特征图的尺寸会逐步减小，例如16×16的输入图像在经过单位步长、无填充的5×5的卷积核后，会输出12×12的特征图。为此，填充是在特征图通过卷积核之前人为增大其尺寸以抵消计算中尺寸收缩影响的方法。常见的填充方法为按0填充和重复边界值填充（replication padding）。填充依据其层数和目的可分为四类：

（1）有效填充（valid padding）：即完全不使用填充，卷积核只允许访问特征图中包含完整感受野的位置。输出的所有像素都是输入中相同数量像素的函数。使用有效填充的卷积被称为“窄卷积（narrow convolution）”，窄卷积输出的特征图尺寸为(L-f+1)/s。

（2）相同填充/半填充（same/half padding）：只进行足够的填充来保持输出和输入的特征图尺寸相同。相同填充下特征图的尺寸不会缩减但输入像素中靠近边界的部分相比于中间部分对于特征图的影响更小，即存在边界像素的欠表达。使用相同填充的卷积被称为“等长卷积（equal-width convolution）”。

（3）全填充（full padding）：进行足够多的填充使得每个像素在每个方向上被访问的次数相同。步长为1时，全填充输出的特征图尺寸为L+f-1，大于输入值。使用全填充的卷积被称为“宽卷积（wide convolution）”

（4）任意填充（arbitrary padding）：介于有效填充和全填充之间，人为设定的填充，较少使用。

带入先前的例子，若16×16的输入图像在经过单位步长的5×5的卷积核之前先进行相同填充，则会在水平和垂直方向填充两层，即两侧各增加2个像素（p=2）变为20×20大小的图像，通过卷积核后，输出的特征图尺寸为16×16，保持了原本的尺寸。

2.3 激励层

激励层的作用是把卷积层输出结果做非线性映射，卷积神经网络采用的激励函数一般为ReLU(The Rectified Linear Unit/修正线性单元)，它的特点是收敛快，求梯度简单，但较脆弱，它的函数图像如下：

2.4 池化层（pooling layer）

池化层夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合。简而言之，如果输入是图像的话，那么池化层的最主要作用就是压缩图像。在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同，由池化大小、步长和填充控制。

Lp池化是一类受视觉皮层内阶层结构启发而建立的池化模型，其一般表示形式为：