基于MATLAB软件和DNN深度神经网络的MNIST数据集手写字符识别

FPGA与信号处理

已于 2025-01-06 21:23:19 修改

阅读量1.4k

点赞数 29

分类专栏：其他(C语言、深度学习) 文章标签： DNN 深度学习 BP算法 δ法则 MATLAB

于 2024-11-15 21:46:47 首次发布

本文链接：https://blog.youkuaiyun.com/m0_66360845/article/details/143777876

版权

其他(C语言、深度学习) 专栏收录该内容

6 篇文章

订阅专栏

深度神经网络DNN反向传播BP算法推导、δ法则
基于MATLAB软件和DNN深度神经网络的MNIST数据集手写字符识别
分别仿真了仅有随机梯度下降的DNN网络、应用BatchSize批量训练的DNN网络、应用批量训练和Adam优化算法的DNN网络。

文章目录

前言
一、单个神经元的内部结构
二、前向传播
三、反向传播
四、使用 SGD 方法在 MATLAB 中进行 MNIST 数据集的手写字符识别
五、使用 BatchSize 方法在 MATLAB 中进行 MNIST 数据集的手写字符识别
六、使用 Adam 优化算法在 MATLAB 中进行 MNIST 数据集的手写字符识别
七、MATLAB源代码
总结

前言

$\;\;\;\;\;$ 本文在得出权重w和偏置b的更新公式后，在MATLAB中分别仿真了仅有随机梯度下降SGD的DNN网络、应用BatchSize批量训练的DNN网络、应用批量训练和Adam优化算法的DNN网络，用这三种方法训练MNIST数据集的手写字符识别。仅训练10次，最高准确率达到了97.46%，进一步训练调参准确率还可提升很多。

提示：以下是本篇文章正文内容，转载请附上链接！

一、单个神经元的内部结构

$\;\;\;\;\;$ 神经网络中的神经元是对生物神经元的模拟，它接收来自外部的若干个变量值，为每个变量值赋予不同的权重，对变量进行加权求和，并经过内部激活函数的处理，最终输出激活值。
在这里插入图片描述
首先对输入变量进行加权求和：
$\begin{aligned}\text{z}&=x_1*w_1+x_2*w_2+x_3*w_3+\cdots+x_n*w_n+b\\&=\sum_{i=1}^nx_iw_i+b\\&=\mathbf{x}*\mathbf{w}+b\end{aligned}$
然后将加权求和结果输入到激活函数：
$y=f(z)=f(\mathbf{x}*\mathbf{w}+b)$
输入 $\mathbf{x}$ ：神经元的输入变量值，可以理解为上一层神经元的输出结果。
权重 $\mathbf{w}$ ：每一个输入对应着一个权重，代表着该输入的重要程度，重要程度越高，则权重越大。
偏置b：偏置可以理解为激活该神经元的阈值，当超过阈值时该神经元被激活。
激活函数f：当输入激励达到一定强度，神经元就会被激活，产生输出信号。模拟这一细胞激活过程的函数，就叫激活函数。
输出y：激活函数的输出结果，不同的激活函数有着不同的输出结果。

二、前向传播

先进行相关符号的定义：
$w_{jk}^{l}$ ：第（ $l - 1$ ）层的第 $k$ 个神经元连接到第 $l$ 层的第 $j$ 个神经元的权重
$b_j^l$ ：第 $l$ 层的第 $j$ 个神经元的偏置
$z_j^l$ ：第 $l$ 层的第 $j$ 个神经元的带权输入（上一层的激活值与偏置的加权之和）
$a_j^l$ ：第 $l$ 层的第 $j$ 个神经元的激活值

在这里插入图片描述
第1层神经元的带权输入值为：
$\begin{bmatrix}z_1^{(1)}\\z_2^{(1)}\end{bmatrix}=\begin{bmatrix}w_{11}^{(1)}&w_{12}^{(1)}\\w_{21}^{(1)}&w_{22}^{(1)}\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}+\left[\begin{array}{c}b_1^{(1)}\\b_2^{(1)}\end{array}\right]=\mathbf{w}_1\mathbf{x}+\mathbf{b}_1$
第1层神经元的激活值为，其中 $\sigma$ 为激活函数：
$\mathbf{y}_1=\left[\begin{array}{c}a_1^{(1)}\\a_2^{(1)}\end{array}\right]=\left[\begin{array}{c}\sigma\Big(z_1^{(1)}\Big)\\\sigma\Big(z_2^{(1)}\Big)\end{array}\right]$
第2层神经元的带权输入值为：
$\begin{bmatrix}z_1^{(2)}\\z_2^{(2)}\end{bmatrix}=\begin{bmatrix}w_{11}^{(2)}&w_{12}^{(2)}\\w_{21}^{(2)}&w_{22}^{(2)}\end{bmatrix}\left[\begin{array}{c}a_1^{(1)}\\a_2^{(1)}\end{array}\right]+\left[\begin{array}{c}b_1^{(2)}\\b_2^{(2)}\end{array}\right]=\mathbf{w}_2\mathbf{y}_1+\mathbf{b}_2$
第2层神经元的激活值为：
$\mathbf{y}=\left[\begin{array}{c}y_1\\y_2\end{array}\right]=\left[\begin{array}{c}a_1^{(2)}\\a_2^{(2)}\end{array}\right]=\left[\begin{array}{c}\sigma\Big(z_1^{(2)}\Big)\\\sigma\Big(z_2^{(2)}\Big)\end{array}\right]$

三、反向传播

对于每一个样本，拟合误差用如下二次损失函数表示：
$\begin{aligned}C&=\frac12\sum_j(y_j-d_j)^2=\frac12\sum_j(a_j^{(2)}-d_j)^2\end{aligned}$
其中 $j$ 表示第 $j$ 个神经元， $y_j$ 表示输出层第 $j$ 个神经元的预测值（激活值）， $d_j$ 表示第 $j$ 个神经元的标签。

在这里插入图片描述

第2层神经元的误差为：
$e_{1} = y_{1} - d_{1}\\e_{2} = y_{2} - d_{2}$
第2层第1个神经元的 $\delta_1^{(2)}$ 为：
$\begin{aligned} \delta_1^{(2)}=\frac{\partial C}{\partial z_1^{(2)}} &=\frac{\partial C}{\partial a_1^{(2)}}\cdot\frac{\partial a_1^{(2)}}{\partial z_1^{(2)}} =\frac{\frac12\sum_j(a_j^{(2)}-d_j)^2}{\partial a_1^{(2)}}\cdot\frac{\partial a_1^{(2)}}{\partial z_1^{(2)}} \\ &=\begin{pmatrix}a_1^{(2)}-d_1\end{pmatrix}\cdot\frac{\partial a_1^{(2)}}{\partial z_1^{(2)}} =(y_1-d_1)\cdot\sigma^{\prime}(z_1^{(2)})=\sigma^{\prime}(z_1^{(2)})\cdot e_{1} \end{aligned}$
同理，第2层第2个神经元的 $\delta_2^{(2)}$ 为：
$\begin{aligned} \delta_2^{(2)}=\sigma^{\prime}(z_2^{(2)})\cdot e_{2} \end{aligned}$
第2层第1个神经元偏置 $b_1^{(2)}$ 的偏导数为：
$\begin{aligned} \frac{\partial C}{\partial b_1^{(2)}}=\frac{\partial C}{\partial z_1^{(2)}}\cdot\frac{\partial z_1^{(2)}}{\partial b_1^{(2)}} =\delta_1^{(2)}\cdot\frac{\partial\left(w_{11}^{(2)}a_1^{(1)}+w_{12}^{(2)}a_2^{(1)}+b_1^{(2)}\right)}{\partial b_1^{(2)}} =\delta_1^{(2)} \end{aligned}$
同理： $\begin{aligned} \frac{\partial C}{\partial b_2^{(2)}}= =\delta_2^{(2)} \end{aligned}$
第2层第1个神经元权重 $w_{11}^{(2)}$ 的偏导数为：
$\begin{aligned} \frac{\partial C}{\partial w_{11}^{(2)}} &=\frac{\partial C}{\partial z_1^{(2)}}\cdot\frac{\partial z_1^{(2)}}{\partial w_{11}^{(2)}}=\delta_{1}^{(2)}\cdot\frac{\partial\left(w_{11}^{(2)}a_1^{(1)}+w_{12}^{(2)}a_2^{(1)}+b_1^{(2)}\right)}{\partial w_{11}^{(2)}}=\delta_1^{(2)}\cdot a_1^{(1)} \end{aligned}$
同理得： $\begin{aligned} \frac{\partial C}{\partial \mathbf{w}_2} =\left[\begin{array}{c}\delta_1^{(2)}\\\delta_2^{(2)}\end{array}\right] \end{aligned}\mathbf{y}_1^{T}$
在这里插入图片描述
$\begin{bmatrix}e_1^{(1)}\\e_2^{(1)}\end{bmatrix}=\begin{bmatrix}w_{11}^{(2)}&w_{21}^{(2)}\\w_{12}^{(2)}&w_{22}^{(2)}\end{bmatrix}\begin{bmatrix}\delta_1\\\delta_2\end{bmatrix}=\mathbf{w}_2^T\begin{bmatrix}\delta_1\\\delta_2\end{bmatrix}$
那么可以总结以下公式：
$\begin{aligned} &\delta_j^l=(a_j^l-d_j)\cdot\sigma^{\prime}(z_j^l) \\ &\frac{\partial C}{\partial b_j^l}=\delta_j^l \\ &\frac{\partial C}{\partial w_{jk}^l}=\delta_j^l\cdot a_k^{l-1} \\ &\delta^{l-1}=\left(\left(w^l\right)^T\delta^l\right)\odot\sigma^{\prime}\left(z^{l-1}\right) \end{aligned}$
然后更新权重和偏置：
$w_{jk}^l\to\left(w_{jk}^l\right)^{\prime}=w_{jk}^l-\alpha\frac{\partial C}{\partial w_{jk}^l}\\b_j^l\to\left(b_j^l\right)^{\prime}=b_j^l-\alpha\frac{\partial C}{\partial b_j^l}$

四、使用 SGD 方法在 MATLAB 中进行 MNIST 数据集的手写字符识别

$\;\;\;\;\;$ 设置四层神经网络，参数设置如下：
在这里插入图片描述
$\;\;\;\;\;$ 每层神经元的数量支持随意修改，仅使用SGD训练神经网络，每一个样本更新一次梯度，当学习率设为0.001，迭代次数设为10时，训练网络的准确率如下图所示，最高准确率为95.2%，很明显还没收敛，还可以继续训练更多的次数。
在这里插入图片描述

五、使用 BatchSize 方法在 MATLAB 中进行 MNIST 数据集的手写字符识别

$\;\;\;\;\;$ 神经网络设置参数保持不变，学习率设为0.01，应用批次训练的方法训练神经网络，批次大小设置为256，训练10次的结果如下图所示，最高准确率为87.77%，很明显还没收敛，还可以继续训练更多的次数。可见批次训练梯度更新较慢且训练结果比较平缓。
在这里插入图片描述

六、使用 Adam 优化算法在 MATLAB 中进行 MNIST 数据集的手写字符识别

$\;\;\;\;\;$ Adam算法是一种自适应学习率的优化算法，结合了动量和自适应学习率的特性。主要思想是根据参数的梯度来动态调整每个参数的学习率。核心原理包括：

动量（Momentum）：Adam算法引入了动量项，以平滑梯度更新的方向。这有助于加速收敛并减少震荡。
自适应学习率：Adam算法计算每个参数的自适应学习率，允许不同参数具有不同的学习速度。
偏差修正（Bias Correction）：Adam算法迭代初期可能受偏差影响，因此它使用偏差修正来纠正这个问题。

$\;\;\;\;\;$ 神经网络设置参数保持不变，学习率设为0.001，应用批次训练的方法和Adam 优化算法训练神经网络，批次大小设置为256，训练10次的结果如下图所示，最高准确率为97.46%，很明显还没收敛，还可以继续训练更多的次数。可见在批次训练上应用Adam优化算法大幅提升训练效果，所以自从Adam优化算法一被提出就在深度学习中得到广泛应用。