BP神经网络

原创于 2021-08-29 16:31:08 发布 · 213 阅读

CC 4.0 BY-SA版权

文章标签：

本文详细介绍了BP（反向传播）神经网络的结构和原理，包括输入层、隐藏层和输出层的激活值计算过程。同时，阐述了BP神经网络的前向传导和误差反向传播算法，用于权重和偏置的更新。通过实例展示了权重累计和激活函数的运用，以及如何通过梯度下降法调整网络参数以减少预测误差。

BP神经网络

文章目录

BP神经网络
- 1 BP神经网络结构和原理
- 2 BP神经网络的实现流程

1 BP神经网络结构和原理

在这里插入图片描述
定义说明：
（1） $n_l$ ：表示网络层数，此处为4层
（2） $L_l$ ：表示第 $l$ 层， $L_1$ 是输入层， $L_{n_l}$ 是输出层，其他为隐含层。
（3） $w_{i j}^{(l)}$ ：表示第 $l + 1$ 层的第 $i$ 个单元与第 $l$ 层第 $j$ 个单元的连接权重
（4） $b_i^{(l)}$ ：表示第 $l$ 层第 $i$ 个单元的偏置项（激活阈值）
（5） $z_i^{(l)}$ ：表示第 $l$ 层第 $i$ 个单元的权重累计
（6） $a_i^{(l)}$ ：表示第l层第i个单元的激活值（输出值）
（7） $h_{w,b}(X)$ ：表示最后的输出值
（8） $S_l$ ：表示第 $l$ 层神经元个数
（9）样本个数为 $m$ ,特征个数为 $n$
通过上面的定义可知：
第一层：
$当l = 1 时，a_i^{(1)} = x_i$
第二层：
$\begin{array}{c} z_{1}^{(2)}=\sum_{j=1}^{4}\left(w_{1 j}^{(1)} a_{j}^{(1)}\right)+b_{1}^{(1)} \\ a_{1}^{(2)}=f\left(z_{1}^{(2)}\right) \\ a_{2}^{(2)}=f\left(w_{21}^{(1)} x_{1}+w_{22}^{(1)} x_{2}+w_{23}^{(1)} x_{3}+b_{2}^{(1)}\right) \\ \quad \cdots \\ a_{4}^{(2)}=f\left(w_{41}^{(1)} x_{1}+w_{42}^{(1)} x_{2}+w_{43}^{(1)} x_{3}+b_{4}^{(1)}\right) \end{array}$
第三层：
$\begin{array}{c} z_{1}^{(3)}=\sum_{j=1}^{4}\left(w_{1 j}^{(2)} a_{j}^{(2)}\right)+b_{1}^{(2)} \\ a_{1}^{(3)}=f\left(z_{1}^{(3)}\right) \\ \cdots \end{array}$
第四层：
$\begin{array}{c} z_{1}^{(4)}=\sum_{j=1}^{4}\left(w_{1 j}^{(3)} a_{j}^{(3)}\right)+b_{1}^{(3)} \\ h_{w . b}(X)=\left(a_{1}^{(4)}, a_{2}^{(4)}\right)^{T} \end{array}$

2 BP神经网络的实现流程

进行前向传导计算，得到 $L_2,L_3,\cdots,L_{n_l}$ 的激活函数值
对于最后一层即 $n_l$ 层，计算误差: $\delta_{i}^{\left(n_{l}\right)}=-\left(y_{i}-a_{i}^{\left(n_{l}\right)}\right) \cdot f^{\prime}\left(z_{i}^{\left(n_{l}\right)}\right)$
对 $l=n_l-1,n_l-2,n_l-3,\cdots,2:$
$\delta_{i}^{l}=\sum_{j=1}^{S_{l+1}}\left[\delta_{j}^{(l+1)} \cdot w_{j i}^{(l)}\right] f^{\prime}\left(z_{i}^{(l)}\right)$
权重和偏置更新，此处 $l = 1$ 时，a^{(l)}实际上就是输入 $x$ $\begin{array}{l} w_{i j}^{(l)}=w_{i j}^{(l)}-\alpha \cdot a_{j}^{(l)} \delta_{i}^{(l+1)} \\ b_{i}^{(l)}=b_{i}^{(l)}-\alpha \cdot \delta_{i}^{(l+1)} \end{array}$
如果考虑正则化的化，则权重的更新方程为： $w_{i j}^{(l)}=w_{i j}^{(l)}(1-\alpha \lambda)-\alpha \cdot a_{j}^{(l)} \delta_{i}^{(l+1)}$