首先,要学会它,我们要先在战略上鄙视它。
它到底是个什么东西呢。
先抽出来看看它。
我们说它的自变量是权重w,输入x后,通过一系列的操作后,一个合适的w能让输出o与真实值T相对接近。
x - f(w) - o
将o与真实值T的差距称为E。
也就是说,E为一个自变量为x的函数,随着w的变化不断变化。

说到这里,你便能知道bp就是那个如何找到较优解w,使得E最小的算法。
从这里也能发现,w的寻找有时会陷入局部最优的困境,找不到全局最优解。
(其实人生也会是如此,我们从不知道当前的选择是不是全局最优)
那么bp究竟是如何找到一个合适的w呢?

这样,w就完成了更新。
那么现在的问题就是,E究竟跟w是什么样的关系,即神经网络到底是什么样的函数。
下图是一个两层的神经网络。一层隐含层,一层输出层。
这里用上标表示层数,下标表示当前层的结点标记。


我们这时候就很容易发现:

至此,我们已经完成了前馈神经网络的构造,也初步知道了w将由梯度算法更新。
在有了函数的轮廓后,我们来具体计算w的更新步骤。
每一层的w更新,都是由链式法则计算的,看上去就像是把误差反向传播了。
(l为当前层数,L为总层数)


因此

总结

徒手画ppt,若有帮助请点赞o( ̄▽ ̄)d
本文介绍了BP神经网络的基本原理,解释了其如何通过调整权重w使预测输出与真实值之间的误差E最小化。文章讨论了使用梯度下降法更新权重的过程,并提到了可能遇到的局部最优解问题。
2593

被折叠的 条评论
为什么被折叠?



