【神经网络】多层前馈神经网络——BP神经网络

最新推荐文章于 2023-03-20 16:24:53 发布

Ono_bing

最新推荐文章于 2023-03-20 16:24:53 发布

阅读量2.7k

点赞数

分类专栏：神经网络学习笔记文章标签：神经网络

本文链接：https://blog.youkuaiyun.com/Ono_bing/article/details/107163469

版权

本文详细介绍了多层前馈神经网络中的BP（误差反向传播）算法，包括模型结构、算法推导、计算步骤、讨论与应用。通过对激活函数、误差能量函数及权值更新的分析，揭示了BP算法如何通过梯度下降法最小化误差，用于训练神经网络。同时，文章探讨了学习曲线、过拟合、局部极值问题以及网络参数的确定方法，展示了BP网络在分类、模式识别、非线性函数逼近等问题上的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多层前馈神经网络–BP神经网络

模型结构

多层结构，L层（ $L\geq2$ ）
信息前向传播
输入层不包含在总层数中，为第0层（ $L_0$ ）
- 输入层的输入样本数为 $N_0$ ： $x_1(t),x_2(t),...,x_{N_0}(t)$
  每个输入都要分别输入给第一层的所有单元
- 第一层 $L_1$ 的 $N_1$ 个单元各自又有输出，为： $y_1^1(t),y_2^1(t),...,y_{N_1}^1(t)$
  
  第一层的所有输出继续作为第二层的输入
- 第二层继续如此
  
  $. . .$
- 最后一层L层有 $N_L$ 个单元，输出为： $y_1(t),y_2(t),...,y_{N_L}(t)$
各层的权值可分别表示为： $w_{11}^1,w_{11}^2,...,w_{11}^L$ （下标表示由前一层的哪个单元传到这一层的哪个单元， $w_{ji}$ ， $j$ 代表后一层的节点编号， $i$ 为前一层的节点编号）

每层的每个单元同时都有门限值 $\theta$ ，分别表示为： $\theta_1^1,\theta_1^2,...,\theta_1^L$
- 每个单元都有非线性激活函数 $\varphi()$ ，输出为： $y_i^l(t)=\varphi(s_j^l(t))$
  
  $s_j^l(t)=\sum_{i=1}^{N_{l-1}}{w_{ji}^ly_i^{l-1}(t)-\theta_j^l}=\sum_{i=0}^{N_{l-1}}{w_{ji}^ly_i^{l-1}(t)}=(W^l)^TY^{l-1}(t)$
- 非线性激活函数： $\varphi(s)=\frac{1}{1+e^{-s}}$ ——Sigmoid 函数
  
  $\frac{d\varphi(s)}{ds}=\varphi(s)(1-\varphi(s))$
  
  Sigmoid函数最小值为0，最大值为0，连续光滑可导
  
  或 $\varphi(s)=tanh(s/2)=\frac{e^{s/2}-e^{-s/2}}{e^{s/2}+e^{-s/2}}$ 和Sigmoid函数图像差不多，但最小值为-1，最大值为1，关于原点奇对称

BP算法（误差反向传播算法，Error Back Propagation Algorithm）

权值学习同样是通过迭代的办法得到： $w_{ji}^l\larr w_{ji}^l+\Delta w_{ji}^l$

关键问题：如何求 $\Delta w_{ji}^l$

主要思路：

条件：要给一定的输入矢量和他们的理想输出矢量K个： $X(k)=[x_1(k),...,x_n(k)]^T,(k=1,2,...,K)$

形成输入输出样本对： ${X(k),D(k)\},(k=1,2,...,K)$

通过训练达到最终目标 $Y(k)\xrightarrow{W}D(k)$
问题的本质： $X (k)$ 和 $D (k)$ 存在某种未知的函数关系，如 $D (K) = f (X (k))$ ，现在要用神经网络来逼近这个函数，要先收集和这个函数有关的输入输出，来训练该神经网络，使得给相同的输入后，输出能逼近理想结果。
如何能达到 $Y(k)\rarr D(k)$
- 思路：构造目标函数 $E(W)=\frac{1}{2}\sum_k\sum_j(d_j(k)-y_j(k))^2\xrightarrow{W}min$
- 通过计算 $W$ ，使得误差平方和（误差能量） $E (W)$ 最小化