Backpropagation

最新推荐文章于 2024-10-07 20:31:25 发布

Ronald__Wang

最新推荐文章于 2024-10-07 20:31:25 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：神经网络算法深度学习

本文链接：https://blog.youkuaiyun.com/Ronald__Wang/article/details/72867267

深度学习专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍了Backpropagation算法在深度神经网络中的应用原理及推导过程。从激活函数出发，推导出如何通过梯度下降来更新权重和偏差，以最小化损失函数。并进一步解释了误差反向传播的具体步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇博客主要推导深度神经网络中，经典的Backpropagation求导算法的推导。因为是随手做的笔记，所以中间有一些中英文夹杂的表达，希望不会对您的理解不会有干扰。还请读者见谅。 In this part, we will derive some most important equations in deep learning. \
在一个神经网络中，使用 $a^l_k$ 表示第l层，第k个神经元的activation的值，使用 $b^l_k$ 表示第l层，第k个神经元的bias。使用 $w^l_{jk}$ 表示第l层上的第j个单元和第l-1层上的第k个单元的权重。由此可以根据前一层的激活值，计算出当前层任意一个单元的激活值。激活函数是

a l j = σ (\sum k w l j k a l - 1 k + b l j)

$\begin{equation} a^l_j = \sigma(\sum_{k}w^l_{jk}a^{l-1}_k+b^l_j) \end{equation}$
其中

σ $\sigma$ 是激活函数。\
假设第l层有2个单元，第l-1层有4个单元，那么我们可以将其写成向量形式

a l = σ^(w l a l - 1 + b l) = σ^([w l 11 w l 21 w l 12 w l 22 w l 13 w l 23 w l 14 w l 24] ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ a l - 1 1 a l - 1 2 a l - 1 3 a l - 1 4 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ + [b l 1 b l 2])

$\begin{equation} \begin{split} a^l &= \hat{\sigma}(w^la^{l-1}+b^l)\\ &=\hat{\sigma}(\begin{bmatrix} w^l_{11}&w^l_{12}&w^l_{13}&w^l_{14}\\ w^l_{21}&w^l_{22}&w^l_{23}&w^l_{24}\\ \end{bmatrix}\begin{bmatrix} a^{l-1}_1\\a^{l-1}_2\\a^{l-1}_3\\a^{l-1}_4 \end{bmatrix}+\begin{bmatrix} b^l_1\\b^l_2 \end{bmatrix}) \end{split} \end{equation}$
相应的，激活函数

σ^ $\hat{\sigma}$ 也变成可以处理向量的形式。\
这里用C表示cost function，BP的目的是求出

∂C∂w $\frac{\partial C}{\partial w}$ 和

∂C∂b $\frac{\partial C}{\partial b}$ 。最原始的求函数代价函数的偏导的方式就是使用表达式然后求导。以两层神经元为例，计算代价函数，然后对weight进行求导如下：这里的未知数就是

w2,b2 $w^2,b^2$ ,代价函数为

C \partial C \partial w \partial C \partial b = a 2 - a^2 = σ^(w 2 a 1 + b 2) = σ^' \partial (w 2) a 1 = σ^' \partial (b 2)

$\begin{equation}\begin{split} C &= a^2 - \hat{a}^2 \\ &= \hat{\sigma}(w^2a^1+b^2)\\ \frac{\partial C}{\partial w} &= \hat{\sigma}'\partial(w^2)a^1\\ \frac{\partial C}{\partial b} &= \hat{\sigma}'\partial(b^2) \end{split} \end{equation}$
两个简单的神经网络

这里只有一个输入层，一个输出层，比较简单，但是如果有多个层，就比较复杂了，比如右图中的情况

C = a 3 - a^3 = σ (w 3 a 2 + b 3) - a^3 = σ (w 3 σ (w 2 a 1 + b 2) + b 3) - a^3

$\begin{equation}\begin{split} C & = a^3 - \hat{a}^3\\ &=\sigma(w^3a^2+b^3) -\hat{a}^3\\ &=\sigma(w^3\sigma(w^2a^1+b^2)+b^3)-\hat{a}^3 \end{split} \end{equation}$
如果层数再增加，嵌套就只能在往上增加了，最后导致求导非常复杂。\
BP很早就被使用在auto difficiation中，第一个在神经网络中使用BP的应该是Werbos (1982)。然后接着在论文中发表 (Parker, 1985; LeCun, 1985)。 here is a link to talk about the history of backpropagation “Who Invented Backpropagation”. 下面开始介绍BP具体做的内容。\
在前面的做法中，我们直接把最终的误差和单个weight联系起来，在BP中，我们引入一个新的中间变量，表示某个单元的误差,

σlj $\sigma^l_j$ .\ 这里介绍了一个扰动的概念，

zlj $z^l_j$ 表示该单元的weighted 输入，如果通过扰动该单元（改变单元的权重

wlj $w^l_j$ ）,我们有

Δzlj $\Delta z^l_j$ ,那么该单元就输出

σ(zlj+Δzlj) $\sigma(z^l_j+\Delta z^l_j)$ ,相应的最终的输出也要变，变化量可以求出来

∂C∂zljΔzlj $\frac{\partial C}{\partial z^l_j}\Delta z^l_j$ . 如果想要向下降方向移动，那么这个扰动需要满足

∂C∂zljΔzlj<0 $\frac{\partial C}{\partial z^l_j}\Delta z^l_j<0$ , 这里举一个

f(x)=4x2 $f(x)=4x^2$ 为例，初始值给1,

∂f∂x=8x $\frac{\partial f}{\partial x}= 8x$ , 那么在

xop>0 $x_{op}>0$ 时，

Δx $\Delta x$ 应该选择向小的方向变动，当

xop<0 $x_{op}<0$ 时，

Δx $\Delta x$ 应该选择向大的方向变动。这里也是这个道理，如果求得了

∂C∂zlj $\frac{\partial C}{\partial z^l_j}$ ，就可以知道怎么调整

Δzlj $\Delta z^l_j$ （即权重），使得目标函数变小，即往优化的方向上走。因为这个缘故，我们专门定义一个指标

δ l j \equiv \partial C \partial z l j

$\begin{equation} \delta^l_j \equiv \frac{\partial C}{\partial z^l_j} \end{equation}$
在这种定义下，根据链式法则，我们可以将之前的求导目标变成

\partial C \partial W = \partial C \partial Z \partial Z \partial W = δ \partial Z \partial W

$\begin{equation}\begin{split} \frac{\partial C}{\partial W} = \frac{\partial C}{\partial Z}\frac{\partial Z}{\partial W} =\delta \frac{\partial Z}{\partial W} \end{split} \end{equation}$
对每一个神经元来说，其输入

zlj $z^l_j$ 是w和b的线性函数，求导相当容易。所以求每个神经元的误差是非常有用的。
\subsection{Derivative of neuron error}
这里假设C的表达式是已知的，比如

C \partial C \partial a L δ L = 1 / 2 | | (y - a L) | | 2 = a L - y = (a L - y) ⊙ \partial a L \partial z L = (a L - y) ⊙ σ (z L)'

$\begin{equation}\begin{split} C &= 1/2||(y - a^L)||^2\\ \frac{\partial C}{\partial a^L} &= a^L-y\\ \delta^L &= (a^L-y)\odot \frac{\partial a^L}{\partial z^L}=(a^L-y)\odot \sigma(z^L)'\\ \end{split}\end{equation}$
这里是第L层，那第L-1层呢？因为C也是关于

aL−1 $a^{L-1}$ 的函数，所以

\partial C \partial a L - 1 δ L - 1 = \partial C \partial z L \partial z L \partial a L - 1 = δ L \partial z L \partial a L - 1 = (W L) T δ L = \partial C \partial a L - 1 \partial a L - 1 \partial z L - 1 = (W L) T δ L ⊙ σ (z L - 1)'

$\begin{equation}\begin{split} \frac{\partial C}{\partial a^{L-1}}&= \frac{\partial C}{\partial z^L}\frac{\partial z^{L}}{\partial a^{L-1}} =\delta^L\frac{\partial z^{L}}{\partial a^{L-1}}= (W^L)^T\delta^L\\ \delta^{L-1} &=\frac{\partial C}{\partial a^{L-1}}\frac{\partial a^{L-1}}{\partial z^{L-1}}=(W^L)^T\delta^L\odot\sigma(z^{L-1})' \end{split} \end{equation}$
以上图中的神经网络为例，

∂C∂aL∈R3×1 $\frac{\partial C}{\partial a^L}\in \mathcal{R}^{3\times1}$ ,

z3=w33×2a22×1+b33×1 $z^3=w^3_{3\times2}a^2_{2\times1}+b^3_{3\times1}$ .
根据这种传播规律，首先计算出第L层的neurons error

δ $\delta$ 之后，\textbf{就可以逐步往前回溯}，求出前面所有层中的error。这个error并不是目标函数中的error，而是一个变化率，当输入和改变1个单位的时候，目标函数C的该变量。\
以L层为例对weight进行求导

z L 3 \times 1 \partial C \partial w L = w L 3 \times 2 a L - 1 2 \times 1 + b L 3 \times 1 = δ L \partial z L \partial w L = δ L (a L - 1) T

$\begin{equation}\begin{split} z^L_{3\times 1} &=w^L_{3\times 2}a^{L-1}_{2\times 1}+b^L_{3\times 1}\\ \frac{\partial C}{\partial w^L} &= \delta^L\frac{\partial z^L}{\partial w^L}= \delta^L(a^{L-1})^T\\ \end{split}\end{equation}$
同理，以L层为例对bias求偏导