Backpropagation反向传播算法【总结】-优快云博客

本文链接：https://blog.youkuaiyun.com/PROGRAM_anywhere/article/details/138513888

概念介绍

Backpropagation本质上就是一个提升Gradient Descent效率的算法，核心在于其可以有效率地计算出一个偏移量来update下一组未知参数。

难点在于：Neural Network有很多层，而且每层参数都非常多，所以不能立即算出来该组未知参数的偏微分，如果只有一层当然可以快速计算，无需使用Backpropagation进行优化

推理步骤

1.Loss function定义： $L(θ)=∑n=1NCn(θ)L(\theta)=\displaystyle\sum_{n=1}^NC^n(\theta)$
在这里插入图片描述
$C^n$ 是一个function，代表模型计算出来的值 $y^n$ 和真实的值 $y^n\widehat{y}^n$ 的距离，两个向量之间的距离。在所有参数 $θ\theta$ 已知的情况下 $y^n$ 也是一个已知量，那么他们之间的距离也是一个已知量（是通过 $C^n$ 计算出来的一个已知量）

那么难点在于我们要求 $θ\theta$ 的偏微分

2.对w进行偏微分

这些未知参数用w来表示，b在计算微分的时候无用所以忽略

$∂L(θ)∂w=∑n=1N∂Cn(θ)∂w\dfrac{{\partial}L(\theta)}{\partial{w}}=\displaystyle\sum_{n=1}^N\dfrac{{\partial}C^n(\theta)}{\partial{w}}$

3.先考虑一个Neuron
在这里插入图片描述

（1）假设w只有2个w1和w2，并且n=1，现在要计算 $∂C∂w\dfrac{{\partial}C}{\partial{w}}$

$∂C∂w=∂z∂w∂C∂z\dfrac{{\partial}C}{\partial{w}}=\dfrac{{\partial}z}{\partial{w}}\dfrac{{\partial}C}{\partial{z}}$
（两个z的偏微分可以约掉，所以可以写成这样）

其中计算 $∂z∂w\dfrac{{\partial}z}{\partial{w}}$ 叫做【Forward pass】，计算 $∂C∂z\dfrac{{\partial}C}{\partial{z}}$ 叫做【Backword pass】

（2）求解 $∂z∂w\dfrac{{\partial}z}{\partial{w}}$

假设w只有2个w1和w2

我们发现：w1的微分就是 $x_1$ ；w1的微分就是 $x_2$

$∂z∂w=x1+x2\dfrac{{\partial}z}{\partial{w}}=x_1+x_2$

如果我们知道输入，那可以很快求出任何一个w在activation function上的偏微分就是他的输入
在这里插入图片描述
第一层的输入x是已知量，第二层的输入也是可以通过activation function计算出来

现在已经解决了 $∂z∂w\dfrac{{\partial}z}{\partial{w}}$ ，还需要解决的是 $∂C∂z\dfrac{{\partial}C}{\partial{z}}$

（2）求解 $∂C∂z\dfrac{{\partial}C}{\partial{z}}$

假设输出只有2个z
在这里插入图片描述

如图假设a是sigmoid function通过z计算出来的

因为 $∂C∂z=∂a∂z∂C∂a\dfrac{{\partial}C}{\partial{z}}=\dfrac{{\partial}a}{\partial{z}}\dfrac{{\partial}C}{\partial{a}}$ ，所以我们现在需要求后面两个偏微分

$∂a∂z\dfrac{{\partial}a}{\partial{z}}$ 是很容易求出来的，因为是一个已知的激活函数sigmoid function，在进行forward pass计算的时候z就是一个已知量了，那么 $∂a∂z\dfrac{{\partial}a}{\partial{z}}$ 就可以当做一个常量

那么就只剩下 $∂C∂a\dfrac{{\partial}C}{\partial{a}}$ ，它等于a在 $z^1$ 上的偏微分加上其他其他输出a在z上的微分，那么如图很容易知道 $∂z′∂a=w3\dfrac{{\partial}z^{'}}{\partial{a}}=w^3$ ， $∂z′′∂a=w4\dfrac{{\partial}z^{''}}{\partial{a}}=w^4$

根据后面节点的微分就可以得到当前节点的微分，如下：
在这里插入图片描述

现在就只剩下 $∂C∂z′\dfrac{{\partial}C}{\partial{z^{'}}}$ 需要求解了，上面只讨论了两层，但实际上有很多层，现在就是求解下面这个模型，下面这个模型和上面的求解是一样的，继续往下分解即可。

但是继续往下分解那不就是和一般的Gradient Descent一样了么？
在这里插入图片描述
我们发现正向的求解过程和逆向的求解过程完全一样

如果我们知道了 $∂C∂za\dfrac{{\partial}C}{\partial{z_a}}$ 和 $∂C∂zb\dfrac{{\partial}C}{\partial{z_b}}$ ，就很容易求出 $∂C∂z′\dfrac{{\partial}C}{\partial{z^{'}}}$

假设 $Z_a$ 已经是最后一层，那么是可以通过y来计算出 $Z_a$ 的微分，从而可以往上计算出所有的微分。

如果我们反向计算，那么效率就会高很多，之前是通过x往后计算，现在通过y往前计算，因为x是已知量y也是已知量，所以可以建立一个反向的Neural Network
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
那么现在我们可以很容易知道任何一个w的偏微分，然后就可以算出下一个w’的值
在这里插入图片描述