BP神经网络详解-优快云博客

本文链接：https://blog.youkuaiyun.com/github_33934628/article/details/79438654

本文详细介绍了一个单变量版本的BP神经网络算法，包括网络结构定义、前向传播过程及反向传播原理。通过数学公式推导，展示了如何通过梯度下降法调整权重与偏置，实现网络训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BP神经网络算法（单变量版本）

网络结构定义

输入变量 $X_m$ ,其中 $m=1,2,3,...,N_{input}$
要预测的变量 $t_m$ ,其中 $m=1,2,3,...,N_{input}$
设置三层网络结构，前两层为隐藏层，最后一层为输出层
第一层共有I个神经元，第二层共有J个神经元，第三层共有K个神经元。

前向传播

第一层

$W_{im}$ ,表示第一层神经网络第 $i$ 个神经元和第 $m$ 个输入变量之前的权重。
$b_{i}$ ,表示第一层神经网络第 $i$ 个神经元的偏置。
$net^{(1)}_i = \sum_{m=1}^{N_{input}}W_{im}X_m + b_i$ ,其中 $net^{(1)}_i$ 表示第一层神经网络中第 $i$ 个神经元的输出。
第一层的激活函数设为 $f^{(1)}$ ,则经过激活函数激活后第 $i$ 个神经元的输出为

y_{i}^{(1)} = f^{(1)} (n e t_{i}^{(1)})

$y^{(1)}_i = f^{(1)}(net^{(1)}_i)$

第二层

$W_{ji}$ ,表示第二层神经网络第 $j$ 个神经元和第 $i$ 个第一层神经网络的神经元输出之间的权重。
$b_{j}$ ,表示第二层神经网络第 $j$ 个神经元的偏置。
$net^{(2)}_j = \sum_{i=1}^{I}W_{ji}y_i^{(1)} + b_j$ ,其中 $net^{(2)}_j$ 表示第二层神经网络中第 $j$ 个神经元的输出。
第二层的激活函数设为 $f^{(2)}$ ,则经过激活函数激活后第 $j$ 个神经元的输出为

y_{j}^{(2)} = f^{(2)} (n e t_{j}^{(2)})

$y^{(2)}_j = f^{(2)}(net^{(2)}_j)$

第三层（输出层）

$W_{kj}$ ,表示第三层神经网络第 $k$ 个神经元和第 $j$ 个第二层神经网络的神经元输出之间的权重。
$b_{k}$ ,表示第三层神经网络第 $k$ 个神经元的偏置。
$net^{(3)}_k = \sum_{j=1}^{J}W_{kj}y_j^{(2)} + b_k$ ,其中 $net^{(3)}_k$ 表示第三层神经网络中第 $k$ 个神经元的输出。
第三层的激活函数设为 $f^{(3)}$ ,则经过激活函数激活后第 $k$ 个神经元的输出为

y_{k}^{(3)} = f^{(3)} (n e t_{k}^{(3)})

$y^{(3)}_k = f^{(3)}(net^{(3)}_k)$

经过前向传播已经可以用来输出结果了。
但是怎么来训练这个神经网络呢？这里就要用到神经网络的反向传播！！

反向传播(Back-Propagation)-求导

要使用反向传播首先需要定义损失函数(loss function)。现在针对不同的领域损失函数的定义有非常多，这里用到最简单的均方差(Mean squared error-MSE)来训练分类任务的神经网络
均方差的定义

1 l \sum l = 1 n t (y (3) k - t k) 2

$\frac{1}{l}\sum^{nt}_{l=1}(y^{(3)}_k - t_k)^2$

nt表示分类任务最后类别的数目。如果是抛硬币那么nt=2(正面和反面)。
PS：如果是分类问题，需要将这里的t_m进行one-hot编码。并且输出层神经元的个数与nt的大小相同。

输出层推导

根据链式法则(chain-rule),求权重的导数

\partial l o s s \partial W k j = \partial l o s s \partial n e t ( 3 ) k \cdot \partial n e t ( 3 ) k \partial W k j = \partial l o s s \partial n e t ( 3 ) k \cdot y (2) j

$\frac{\partial loss}{\partial W_{kj}}=\frac{\partial loss}{\partial net^{(3)}_k}\cdot\frac{\partial net^{(3)}_k}{\partial W_{kj}}=\frac{\partial loss}{\partial net^{(3)}_k}\cdot y_j^{(2)}$

\partial l o s s \partial n e t ( 3 ) k = \partial \partial n e t ( 3 ) k (1 l \sum l n t (y (3) k - t k) 2) = 1 l \partial \partial n e t ( 3 ) k (\sum l n t (f (3) (n e t (3) k) - t k) 2)

$\frac{\partial loss}{\partial net^{(3)}_k}=\frac{\partial}{\partial net^{(3)}_k}(\frac{1}{l}\sum^{nt}_{l}(y^{(3)}_{k}-t_k)^2)=\frac{1}{l}\frac{\partial}{\partial net^{(3)}_k}(\sum^{nt}_{l}(f^{(3)}(net^{(3)}_k)-t_k)^2)$

= 1 l \partial \partial n e t ( 3 ) k ((f (3) (n e t (3) k) - t k) 2) = 2 l (f (3) (n e t (3) k) - t k) \cdot (f (3)' (n e t (3) k) \cdot 1)

$=\frac{1}{l}\frac{\partial}{\partial net^{(3)}_k}((f^{(3)}(net^{(3)}_k)-t_k)^2)=\frac{2}{l}(f^{(3)}(net^{(3)}_k)-t_k) \cdot (f^{(3)'}(net^{(3)}_k)\cdot 1)$

其中设 $\frac{\partial loss}{\partial net^{(3)}_k}=\delta^{(3)}=\frac{2}{l}(f^{(3)}(net^{(3)}_k)-t_k) \cdot (f^{(3)'}(net^{(3)}_k)\cdot 1)$
则

\to \partial l o s s \partial W k j = δ (3) \cdot y (2) j

$\to\frac{\partial loss}{\partial W_{kj}}=\delta^{(3)}\cdot y_j^{(2)}$

同理可得

\partial l o s s \partial b k = \partial l o s s \partial n e t ( 3 ) k \cdot \partial n e t ( 3 ) k \partial b k = \partial l o s s \partial n e t ( 3 ) k = δ (3)

$\frac{\partial loss}{\partial b_{k}}=\frac{\partial loss}{\partial net^{(3)}_k}\cdot\frac{\partial net^{(3)}_k}{\partial b_{k}}=\frac{\partial loss}{\partial net^{(3)}_k}=\delta^{(3)}$

这里就求得了最后一层相关权重和偏置的导数了。

第二层隐藏层推导

与输出层的求导非常相似，也是使用链式法则(chain-rule),求第二层隐藏层权重的导数

\partial l o s s \partial W j i = \partial l o s s \partial n e t ( 2 ) j \cdot \partial n e t ( 2 ) j \partial W j i = \partial l o s s \partial n e t ( 2 ) j \cdot y (1) i

$\frac{\partial loss}{\partial W_{ji}}=\frac{\partial loss}{\partial net^{(2)}_j}\cdot\frac{\partial net^{(2)}_j}{\partial W_{ji}}=\frac{\partial loss}{\partial net^{(2)}_j}\cdot y_i^{(1)}$

\partial l o s s \partial n e t ( 2 ) j = \partial \partial n e t ( 2 ) j (1 l \sum l n t (y (3) k - t k) 2) = 1 l \partial \partial n e t ( 2 ) j (\sum l n t (f (3) (n e t (3) k) - t k) 2)

$\frac{\partial loss}{\partial net^{(2)}_j}=\frac{\partial}{\partial net^{(2)}_j}(\frac{1}{l}\sum^{nt}_{l}(y^{(3)}_{k}-t_k)^2)=\frac{1}{l}\frac{\partial}{\partial net^{(2)}_j}(\sum^{nt}_{l}(f^{(3)}(net^{(3)}_k)-t_k)^2)$

= 1 l \partial \partial n e t ( 2 ) j ((f (3) (n e t (3) k) - t k) 2) = 1 l \partial \partial n e t ( 2 ) j (f (3) (\sum j = 1 J W k j y (2) j + b k) - t k) 2

$=\frac{1}{l}\frac{\partial}{\partial net^{(2)}_j}((f^{(3)}(net^{(3)}_k)-t_k)^2)=\frac{1}{l}\frac{\partial}{\partial net^{(2)}_j}(f^{(3)}( \sum_{j=1}^{J}W_{kj}y_j^{(2)} + b_k)-t_k)^2$

= 1 l \partial \partial n e t ( 2 ) j (f (3) (\sum j = 1 J W k j f (2) (n e t (2) j) + b k) - t k) 2

$=\frac{1}{l}\frac{\partial}{\partial net^{(2)}_j}(f^{(3)}( \sum_{j=1}^{J}W_{kj}f^{(2)}(net^{(2)}_j) + b_k)-t_k)^2$

= 2 l \cdot f (3) (\sum j = 1 J W k j f (2) (n e t (2) j) + b k) - t k) \cdot f (3)' (\sum j = 1 J W k j f (2) (n e t (2) j) + b k) \cdot \sum j = 1 J W k j f (2)' (n e t (2) j) \cdot 1

$=\frac{2}{l} \cdot f^{(3)}( \sum_{j=1}^{J}W_{kj}f^{(2)}(net^{(2)}_j) + b_k)-t_k) \cdot f^{(3)'}(\sum_{j=1}^{J}W_{kj}f^{(2)}(net^{(2)}_j) + b_k) \cdot \sum_{j=1}^{J}W_{kj}f^{(2)'}(net^{(2)}_j) \cdot 1$

= δ (3) k \cdot \sum j = 1 J W k j f (2)' (n e t (2) j) = \sum j = 1 J (W k j \cdot δ (3) k) \cdot f (2)' (n e t (2) j)

$=\delta^{(3)}_k \cdot \sum_{j=1}^{J}W_{kj}f^{(2)'}(net^{(2)}_j)= \sum_{j=1}^{J}(W_{kj} \cdot \delta^{(3)}_k)\cdot f^{(2)'}(net^{(2)}_j)$

！！！注意 $\delta^{(3)}_k \cdot \sum_{j=1}^{J}W_{kj}f^{(2)'}(net^{(2)}_j)$ 这个式子（************还需要配图说明）
其中设 $\frac{\partial loss}{\partial net^{(2)}_j}=\delta^{(2)}=\sum_{j=1}^{J}(W_{kj} \cdot \delta^{(3)}_k)\cdot f^{(2)'}(net^{(2)}_j)$
则

\to \partial l o s s \partial W j i = δ (2) \cdot y (1) i

$\to\frac{\partial loss}{\partial W_{ji}}=\delta^{(2)}\cdot y_i^{(1)}$

同理可得

\partial l o s s \partial b j = \partial l o s s \partial n e t ( 2 ) j \cdot \partial n e t ( 2 ) j \partial b j = \partial l o s s \partial n e t ( 2 ) j = δ (2)

$\frac{\partial loss}{\partial b_{j}}=\frac{\partial loss}{\partial net^{(2)}_j}\cdot\frac{\partial net^{(2)}_j}{\partial b_{j}}=\frac{\partial loss}{\partial net^{(2)}_j}=\delta^{(2)}$

第一层隐藏层推导

与第二层隐藏层推导一样，也是使用链式法则(chain-rule),求第一层隐藏层权重的导数

\partial l o s s \partial W i m = \partial l o s s \partial n e t ( 1 ) i \cdot \partial n e t ( 1 ) i \partial W i m = \partial l o s s \partial n e t ( 1 ) i \cdot X m

$\frac{\partial loss}{\partial W_{im}}=\frac{\partial loss}{\partial net^{(1)}_i}\cdot\frac{\partial net^{(1)}_i}{\partial W_{im}}=\frac{\partial loss}{\partial net^{(1)}_i}\cdot X_m$

其中设 $\frac{\partial loss}{\partial net^{(1)}_i}=\delta^{(1)}=\sum_{i=1}^{I}(W_{ji} \cdot \delta^{(2)}_j)\cdot f^{(1)'}(net^{(1)}_i)$
则

\to \partial l o s s \partial W i m = δ (1) \cdot X m

$\to\frac{\partial loss}{\partial W_{im}}=\delta^{(1)}\cdot X_m$

同理可得

\partial l o s s \partial b i = \partial l o s s \partial n e t ( 1 ) i \cdot \partial n e t ( 1 ) i \partial b i = \partial l o s s \partial n e t ( 1 ) i = δ (1)

$\frac{\partial loss}{\partial b_{i}}=\frac{\partial loss}{\partial net^{(1)}_i}\cdot\frac{\partial net^{(1)}_i}{\partial b_{i}}=\frac{\partial loss}{\partial net^{(1)}_i}=\delta^{(1)}$

神经网络中所有需要求解的导数都已经完成。接下来只要进行反向传播更新便可以训练该神经网络了。