Back propagation(BP)

最新推荐文章于 2025-09-02 18:04:36 发布

weixin_30794851

最新推荐文章于 2025-09-02 18:04:36 发布

阅读量89

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能

原文链接：http://www.cnblogs.com/xyzt0000/p/6103032.html

本文介绍了BP算法的基本原理，包括多层感知器的结构及其如何通过前向传播和后向传播进行训练。文中详细解释了梯度下降算法在权重更新中的应用，并展示了如何利用残差概念进行误差的反向传播。

*图片来源:图片来源为: http://galaxy.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.html

一.BP算法的直观理解

一个多层感知器(Multilayer perceptron)可以表示为下图.

s中 x$_1$, x$_2$为输入, y为输出, e = w$_i1$x$_1$ + w$_i2$x$_2$. 左式方程组成的感知器可以很好地表达一个线性函数, 但无法表达非线性函数.现实生活中我们遇到的问题多为非线性的, 因此需要引入激活函数f. 常见的激活函数有 tanh, sigmoid, ReLu等. 不同的激活函数可以将输出映射到不同的值. 具体可见另一篇关于激活函数博文(可能还没写).

在BP算法被发明以前, 训练多层感知器是很困难的. 因为多层感知器隐藏层(图中f$_4$和f$_5$)的输出是未知的, 所以无法像单层感知器那样学习. BP算法可以由以下图片直观理解.

　　1. feedforward

　　2. back propagation

　　在分类问题中, 假设有c个标签, N个待分类样本, 则误差计算为: E$^N$ = $\frac{1}{2}(\sum_{n=1}^N\sum_{k=1}^c(t^n_k-y^n_k)^2)$, 其中, $t^n_k$为第k个样本对标签n的目标输出值, $y^n_k$为该样本k对n标签网络输出值, 则$(t^n_k-y^n_k)^2$表示第k个样本对于第n个标签的误差. 只有当样本属于某个标签时, $t^n$为正,其余为零或负.

　　如上所述, 隐含层的目标输出是未知的, 因此我们只能通过链式法则将误差后向传播至中间的隐含层: