BP算法怎样使用梯度下降方法调整权值

最新推荐文章于 2022-08-06 09:54:43 发布

原创最新推荐文章于 2022-08-06 09:54:43 发布 · 9.2k 阅读

1 ·

CC 4.0 BY-SA版权

本文详细介绍了BP算法如何利用梯度下降法调整神经网络权重，通过解析BP算法模型，解释了每一层节点输入、输出的计算方式及误差函数的最小化过程，最终阐述了权重调整的具体方法。

最近看论文时，无意间看到BP（backpropagation）算法使用梯度下降手段（gradient-based），便觉得好奇。什么事梯度下降算法，BP又是怎么使用这种方法进行权值调整呢？

下图给出BP算法模型：

这是一个k阴层神经网络，第k层的输入为xk，那么第k层的节点输入的值为：

$s_h^k = \sum\limits_i {{w_{ih}}x_i^k}$

那么其输出是：

$y_h^k = F(s_h^k) = F(\sum\limits_i {{w_{ih}}x_i^k} )$

同样，第k层节点要传到输出层，输出层节点输出值为：

$y_j^k = F(s_j^k) = F(\sum\limits_h {{w_{hj}}y_h^k} ) = F[\sum\limits_h {{w_{hj}}F(\sum\limits_i {{w_{ih}}x_i^k} )} ]$

误差函数为：

$E(W) = \frac{1}{2}\sum\limits_{k,j} {{{(T_j^k - y_j^k)}^2}} = \frac{1}{2}\sum\limits_{k,j} {{{\{ T_j^k - F[\sum\limits_h {{w_{hj}}F(\sum\limits_i {{w_{ih}}x_i^k} )} ]\} }^2}}$

梯度下降法就是为了最小化上述函数，假设有个初值w0，为了寻找是的E(W)更小的w1，我们选择函数的负梯度方向进行更新，w1=w0+a*d。这里的d为负梯度方向，a为步长，对应到bp算法中的更新速率参数。所以权值进行如下调整：

$\Delta {w_{hj}} = - \eta \frac{{\partial E}}{{\partial {w_{hj}}}} = \eta \sum\limits_k {(T_j^k - y_j^k)F'(s_j^k)y_h^k = } \eta \sum\limits_k {\delta _j^ky_h^k}$