梯度下降法和误差反向传播推导-优快云博客

本文链接：https://blog.youkuaiyun.com/u011529752/article/details/54134223

本文介绍了梯度下降法的基本原理及其在神经网络中的应用。详细推导了线性函数拟合过程中的参数更新规则，并展示了如何通过误差反向传播算法调整神经网络权重以最小化预测误差。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降法原理

梯度下降法的示意图如下
这里写图片描述

前提:假设 $\vec x_{1\times m}$ 和 $\vec y_{1\times n}$ 的向量有一个函数关系 $\vec y=f(\vec x|\theta)$ ,其中 $\theta$ 是一个 $l$ 维的参数向量,为例拟合初函数 $f$ .
现有, $k$ 组观测值,得到训练集矩阵 $X_{k\times m}$ 和 $Y_{k\times n}$ .误差就是

J = 1 2 \sum i = 1 k [f (X i | θ) - Y i] 2

$J=\dfrac{1}{2}\sum_{i=1}^{k}[f(X_i|\theta)-Y_i]^2$
上式可以将

X $X$ 和

Y $Y$ 看作是已知常数,其中

Xi $X_i$ 和

Yi $Y_i$ 是

X $X$ 、

Y $Y$ 的第

i $i$ 行.
上式形成了一个误差曲面,即

J $J$ 是个关于

θ $\theta$ 的函数
为了求得

θ $\theta$ 的值使得误差最小,如上图所示,可以向梯度的反方向搜索,有

Δ θ θ n e w = = = α \partial e r r o r \partial θ α \sum i = 1 k [f (X i | θ) - Y i] \partial f ( X i | θ ) \partial θ θ o l d - Δ θ

$\begin{eqnarray}\Delta\theta&=&\alpha\dfrac{\partial error}{\partial \theta}\\ &=&\alpha\sum_{i=1}^{k}[f(X_i|\theta)-Y_i]\dfrac{\partial f(X_i|\theta)}{\partial \theta}\\ \theta_{new}&=&\theta_{old}-\Delta\theta \end{eqnarray}$
当然,当

f $f$ 是线性函数的时候,参数是个开口向上的二次曲面,

f (x ⃗) = θ 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ m x m

$f(\vec x)=\theta_0+\theta_1 x_1+\theta_2 x_2+\dots+\theta_m x_m$

\partial f \partial θ j = x j

$\dfrac{\partial f}{\partial{\theta_j}}=x_j$

Δ θ j = = α \partial e r r o r \partial θ j α \sum i = 1 k [\sum i i = 0 m θ i i x i i - Y i] x j

$\begin{eqnarray}\Delta\theta_j&=&\alpha\dfrac{\partial error}{\partial \theta_j}\\ &=&\alpha\sum_{i=1}^{k}[\sum_{ii=0}^{m}\theta_{ii}x_{ii}-Y_i]x_j\\ \end{eqnarray}$
其中

x0=1 $x_{0}=1$ 为偏置

神经网络的误差反向传播

一个神经元结构
简单的神经网络
上面两图是简单的神经元和神经网络模型
模型假设:
现在假设神经元有三层
从上到下的坐标为 $k、j、i$ ,每一层的输入都是下一层的输出,函数 $f$ 为神经元的激活函数,每个神经元连接下一层第 $i$ 个神经元的权值为 $w_i$ ,神经元的输出为 $y=f(net)$ ,其中 $net=\sum_{p=0}^{n-1}{w_px_p}$ ,从上到下有各层的节点数为 $c、b、a$ , $N$ 为一次训练的样本总数
对于第k层,即输出层有:

n e t n k y n k J = = = \sum j = 0 b - 1 w k j y n j f (n e t n k) 1 2 \sum n = 0 N - 1 \sum k = 0 c - 1 [y n k - t n k] 2

$\begin{eqnarray} net_{nk}&=&\sum_{j=0}^{b-1}w_{kj}y_{nj}\\ y_{nk}&=&f(net_{nk})\\ J&=&\dfrac{1}{2}\sum_{n=0}^{N-1}\sum_{k=0}^{c-1}[y_{nk}-t_{nk}]^2 \end{eqnarray}$
其中向量

t⃗ =(t1,t2,…,tc) $\vec t=(t_1,t_2,\dots,t_c)$ 为教师信号.n为不同的样本
对于第j层,即输出后面的隐层有:

n e t n j y n j = = \sum i = 0 a - 1 w j i y n i f (n e t n j)

$\begin{eqnarray} net_{nj}&=&\sum_{i=0}^{a-1}w_{ji}y_{ni}\\ y_{nj}&=&f(net_{nj})\\ \end{eqnarray}$
对于第

k $k$ 层和第

j $j$ 层之间的权值,使用梯度下降算法,有:

\partial J \partial w k j δ k = = = = = = \partial J \partial y n k \partial y n k \partial n e t n k \partial n e t n k \partial w k j \sum n = 0 N - 1 (y n k - t n k) f' (n e t n k) y n j δ k y n j \sum n = 0 N - 1 (y n k - t n k) f' (n e t n k) \partial J \partial y n k \partial y n k \partial n e t n k \partial J \partial n e t n k

$\begin{eqnarray} \dfrac{\partial{J}}{\partial{w_{kj}}}&=&\dfrac{\partial{J}}{\partial{y_{nk}}}\dfrac{\partial{y_{nk}}}{\partial{net_{nk}}}\dfrac{\partial{net_{nk}}}{\partial{w_{kj}}}\\ &=&\sum_{n=0}^{N-1}(y_{nk}-t_{nk})f^{'}(net_{nk})y_{nj}\\ &=&\delta_ky_{nj}\\ \delta_{k}&=&\sum_{n=0}^{N-1}(y_{nk}-t_{nk})f^{'}(net_{nk})\\ &=&\dfrac{\partial{J}}{\partial{y_{nk}}}\dfrac{\partial{y_{nk}}}{\partial{net_{nk}}}\\ &=&\dfrac{\partial{J}}{\partial{net_{nk}}} \end{eqnarray}$
其中

δk $\delta_k$ 为误差项
对于第

j $j$ 层和第i层之间的权值,使用梯度下降法,有:

\partial J \partial w j i = = = = = = = \partial J \partial y n j \partial y n j \partial n e t n j \partial n e t n j \partial w j i \partial { 1 2 \sum N - 1 n = 0 \sum c - 1 k = 0 [ y n k - t n k ] 2 } \partial y n j f' (n e t n j) y n i \sum n = 0 N - 1 \sum k = 0 c - 1 (y n k - t n k) \partial y n k \partial y n j f' (n e t n j) y n i \sum n = 0 N - 1 \sum k = 0 c - 1 (y n k - t n k) \partial y n k \partial n e t n k \partial n e t n k \partial y n j f' (n e t n j) y n i \sum n = 0 N - 1 \sum k = 0 c - 1 (y n k - t n k) f' (n e t n k) w k j f' (n e t n j) y n i [\sum k = 0 c - 1 δ k w k j f' (n e t n j)] y n i δ j y n i

$\begin{eqnarray} \dfrac{\partial{J}}{\partial{w_{ji}}}&=&\dfrac{\partial{J}}{\partial{y_{nj}}}\dfrac{\partial{y_{nj}}}{\partial{net_{nj}}}\dfrac{\partial{net_{nj}}}{\partial{w_{ji}}}\\ &=&\dfrac{\partial{\{\dfrac{1}{2}\sum_{n=0}^{N-1}\sum_{k=0}^{c-1}[y_{nk}-t_{nk}]^2\}}}{\partial{y_{nj}}}f^{'}(net_{nj})y_{ni}\\ &=&\sum_{n=0}^{N-1}\sum_{k=0}^{c-1}(y_{nk}-t_{nk})\dfrac{\partial{y_{nk}}}{\partial{y_{nj}}}f^{'}(net_{nj})y_{ni}\\ &=&\sum_{n=0}^{N-1}\sum_{k=0}^{c-1}(y_{nk}-t_{nk})\dfrac{\partial{y_{nk}}}{\partial{net_{nk}}}\dfrac{\partial{net_{nk}}}{\partial{y_{nj}}}f^{'}(net_{nj})y_{ni}\\ &=&\sum_{n=0}^{N-1}\sum_{k=0}^{c-1}(y_{nk}-t_{nk})f^{'}(net_{nk})w_{kj}f^{'}(net_{nj})y_{ni}\\ &=&[\sum_{k=0}^{c-1}\delta_kw_{kj}f^{'}(net_{nj})]y_{ni}\\ &=&\delta_jy_{ni} \end{eqnarray}$

由全微分公式
假设 $\dfrac{\partial{J}}{\partial{w_{nk}}}=\delta_ky_{nj}$
即 $\dfrac{\partial{J}}{\partial{net_{nk}}}=\delta_k$
则

\partial J \partial n e t n j = \sum k = 0 c - 1 \partial J \partial n e t n k \partial n e t n k \partial n e t n j = \sum k = 0 c - 1 \partial J \partial n e t n k \partial n e t n k \partial y n j \partial y n j \partial n e t n j = \sum k = 0 c - 1 δ k w k j f' (n e t j)

$\dfrac{\partial{J}}{\partial{net_{nj}}}=\sum_{k=0}^{c-1}\dfrac{\partial{J}}{\partial{net_{nk}}}\dfrac{\partial{net_{nk}}}{\partial{net_{nj}}}\\ =\sum_{k=0}^{c-1}\dfrac{\partial{J}}{\partial{net_{nk}}}\dfrac{\partial{net_{nk}}}{\partial{y_{nj}}}\dfrac{\partial{y_{nj}}}{\partial{net_{nj}}}\\ =\sum_{k=0}^{c-1}\delta_kw_{kj}f^{'}(net_j)$
误差反向传播模型如下图所示: