多层神经网络BP算法解释

最新推荐文章于 2025-03-20 19:11:34 发布

荼蘼不谢

最新推荐文章于 2025-03-20 19:11:34 发布

阅读量9.2k

点赞数 4

分类专栏：神经网络文章标签： BP 神经网络反向传播

神经网络专栏收录该内容

2 篇文章

订阅专栏

# 多层神经网络BP算法解释 ## 前向传播 *** * 该项目采用反向传播算法描述了多层神经网络的教学过程。为了说明这个过程，使用了具有两个输入和一个输出的三层神经网络，如下图所示:

每个神经元由两个单元组成。
第一单元添加权重系数和输入信号的乘积。
第二个单元实现非线性功能，称为神经元激活功能。
信号 $e$ 是加法器输出信号.
$y=f(e)$ 是非线性元件的输出信号。
信号 $y$ 也是神经元的输出信号。

训练数据由（期望输出） $z$ 和输入信号 $x_1$ 和 $x_2$ 组成。
神经网络训练是一个迭代过程。在每次迭代中，使用来自训练数据集的新数据来修改节点的权重系数 $w$ 。
使用下面描述的算法计算修改：每个教学步骤从强制来自训练集的两个输入信号开始。在此阶段之后，我们可以确定每个网络层中每个神经元的输出信号值。
下面的图片说明了信号如何通过网络传播，符号 $w_{（xm）n}$ 表示输入层中网络输入 $xm$ 和神经元 $n$ 之间的连接权重。符号 $y_n$ 表示神经元 $n$ 的输出信号。

y_{1} = f_{1} (w_{(x_{1}) 1} * x_{1} + w_{(x_{2}) 1} * x_{2})

$y_1 = f_1(w_{(x_1)1} * x_1 + w_{(x_2)1} * x_2)$

y 2 = f 2 (w (x 1) 2 * x 1 + w (x 2) 2 * x 2)

$y_2 = f_2(w_{(x_1)2} * x_1 + w_{(x_2)2} * x_2)$

y 3 = f 3 (w (x 1) 3 * x 1 + w (x 2) 3 * x 2)

$y_3 = f_3(w_{(x_1)3} * x_1 + w_{(x_2)3} * x_2)$ * 其中

f() f ( ) $f()$ 函数可以是

sigmod s i g m o d $sigmod$ 函数

e x . f (z) = 1 1 + e - z

$ex. f(z) = \frac {1}{1+e^{-z}}$ /div> *** * 通过隐藏层传播信号。 * 符号

wmn w m n $w_{mn}$ 表示下一层中神经元

m m $m$ 的输出与神经元

n

$n$ 的输入之间的连接的权重。

## BP网络 *** * 将神经网络的输出信号

y^ y ^ $\hat y$ 与在训练数据集中找到的真实值（

y y $y$ ）进行比较。该差异被称为输出层神经元的误差信号

δ

$\delta$ 。

δ = y - y^

$\delta = y - \hat y$ 与下图片对应关系为

y=z y = z $y = z$ ,

y^=y y ^ = y $\hat y = y$

无法计算直接计算隐藏层的真实值和误差，因为该过程在实际生产中不存在，或不可得。
为此，八十年代中期，提出了 BP算法
上一条是重点，重点，重点。
注意下图公式有误，正确表达为
$δ 4 = w 46 * δ * d f 6 ( e ) d e = - w 46 * δ * y^* (1 - y^)$ $\delta _4 = w_{46}* \delta * \frac {\mathrm{d}f_6(e)}{\mathrm{d}e} = -w_{46}* \delta * \hat y *(1-\hat y)$
其他的同类表达式也需要类似的修改，请注意。
对于有多条边连接的节点， $\delta$ 为每条边结果的和。

获得每个神经元的误差信号后，可以利用误差来修改每个神经元输入节点的权重系数。
下面的公式
$\partial ( δ 2 ) \partial e = \partial ( y - y ^ ) 2 \partial e = - (y - y^) * y^* (1 - y^)$ $\frac{\partial (\delta^2)}{\partial e} = \frac{\partial ( y - \hat y)^2}{\partial e} = -( y - \hat y) * \hat y * (1- \hat y)$
表示神经元激活函数的导数残差。
${\delta}^2$ 即为 损失函数
又因为对 $\frac{\mathrm{d}e}{\mathrm{d}\theta}$ 有
$d e d θ = \partial θ T x \partial θ = x$ $\frac{\mathrm{d}e}{\mathrm{d}\theta} = \frac{\partial {\theta}^Tx} {\partial \theta} = x$
由于链式法则：
$\partial ( δ 2 ) \partial θ = \partial ( y - y ^ ) 2 \partial e d e d θ = - (y^- y) * y^* (1 - y^) * x = - δ * y^* (1 - y^) * x$ $\frac{\partial (\delta^2)}{\partial \theta}= \frac{\partial ( y - \hat y)^2}{\partial e}\frac{\mathrm{d}e}{\mathrm{d}\theta} = -(\hat y - y) * \hat y * (1- \hat y)*x =- \delta * \hat y * (1- \hat y)*x$
$\hat y$ 表示输出值
$y$ 表示真实值
$x$ 代表上一层的输出或者原始的输入
$\delta$ 表示误差 这里用到了上一节BP中的假设
通过这部分化简，我们利用误差 $\delta$ 代替了的 $y - \hat y$ 从而避开了隐藏层中的未知量 $y$
最后利用标准的* 梯度下降公式*:
$\hat{w} = w - η * \nabla = w + η * δ * \hat{y} * (1 - \hat{y}) * x = w + η * δ * \frac{\partial y}{\partial e} * x$ $\hat w=w-\eta * \nabla = w +\eta * \delta * \hat y * (1- \hat y) * x =w +\eta * \delta *\frac{\partial y}{\partial e} * x$