BP神经网络

最新推荐文章于 2022-11-29 21:17:25 发布

原创最新推荐文章于 2022-11-29 21:17:25 发布 · 792 阅读

0 ·

CC 4.0 BY-SA版权

实验室车联网专栏收录该内容

4 篇文章

订阅专栏

本文深入解析BP神经网络的工作原理，包括前馈神经网络的数据信息前向传播和BP算法的误差反向传播。通过数学推导，阐述了如何利用随机梯度下降算法动态更新网络权重，以使网络输出接近期望值。

BP神经网络由两部分组成：

前馈神经网络：神经网络是前馈的，其权重都不回送到输入单元，或前一层输出单元（数据信息是单向传播的，不会回流），区别于循环神经网络RNN。
BP算法（Back Propagation）：误差反向传播算法，用于更新网络中的权重。
BP神经网络思想：

表面上：1. 数据信息的前向传播，从输入层到隐含层，最后到输出层。2. 误差的反向传播：输出结果与真实结果的误差值，从输出层传递到隐含层，最后到输入层。
本质上：针对每个输入样本，采用随机梯度下降算法，动态更新网络中的权重和偏倚，以使网络的输出不断地接近期望的输出。
首先在BP神经网络模型中我们讨论前向传播，对于一个层的BP神经网络，其输入层为第层，输出层为第层，隐藏层为第层到第层。对于输出层的第个神经元，其输出为 $O_{k}^{L}$ ，下标表示第个，上标表示层数，输入为 $I_{k}^{L}$ 。第层包含的神经元个数用 $\left| l\right|$ 表示。
在下面的表述中为了描述的更加清楚我将不使用阈值 $\theta$ （可以理解为内部偏置），即第层的第个神经元的输入 $I_{j}^{l}$ 与第每个神经元的输出关系如下所示，其中 $w_{ji}^{l-1}$ 表示第层第个神经元与第层第个i 经元的链接权重。
（也就是说下一层某一神经元的输入来源于上一层每一个神经元的输出与权重加权和）
而输出 $O_{j}^{l} = f(I_{j}^l)$ ，为激励函数。
一般来说在神经网络中我们选择的激励函数是指函数，即 $f=\frac{1}{1+e^{-x} }$
可以更好的拟合非线性函数，且有
$f^{'} =f\cdot (1-f)$ ，即 $\frac{\partial O_{j}^{l} }{\partial I_{j}^{l}}= O_{j}^{l}\cdot (1-O_{j}^{l})$ 。
这里的反向误差减小采取更改权重值
E为损失函数，偏导也就是梯度，乘以的系数为步数，类似于SGD
这里给出的也就是梯度下降的方向
引入新变量梯度 $\delta$ ，对于第层第个神经元的梯度 $\delta _{j}^{l}$ ，我们定义其值为 $\delta _{j}^{l} =-\frac{\partial E}{\partial I_{j}^{l} }$ （***）

看输出层，即第层，由于权重 $w_{kj}^{L-1}$ 只对输出层的第个单元产生影响，即只影响 $O_{k}^{L}$ ，所以我们直接求导

（M）

前面已知，所以可以到（G1）

（备注：看到这有人忘了O是什么了，O是某一层某一神经元的输出

变形也就是=

前面提到的这个是说上一层神经元的输入乘以权重之和也就是下一层某一神经元的输入 )

下面尝试把梯度 $\delta _{j}^{l} =-\frac{\partial E}{\partial I_{j}^{l} }$ （***）给表示出来

根据 sigmoid 函数求导公式我们可以得到 $\frac{\partial O_{k}^{L}}{\partial I_{k}^{L}}$ ，而误差如所示，所以我们可以得到 $\frac{\partial E}{\partial O_{k}^{L}}$ ，最后便得到了第层的每个神经单元的梯度项 $\delta _{k}^{L}$

（G2）（两个G结合继续简化）

接下来是隐藏层

，这里对 $\Delta w_{kj}^{L-2}$ 进行推导，其他隐藏层以及输入层类似，显然 $w_{kj}^{L-2}$ 虽然只影响第 L-1 层的第个单元，但 L-1 层的第个单元却链接了输出层的所有单元，所以 $w_{kj}^{L-2}$ 对输出层的每一个单元都产生了影响。我们需要在求导的时它对输出层单元的每个误差的影响进行叠加，与输出层类似部分就不再累述。类似于上述M，得到下面关于L-2层的权重偏导