李宏毅学习笔记7.反向传播

最新推荐文章于 2024-09-04 09:09:05 发布

原创最新推荐文章于 2024-09-04 09:09:05 发布 · 792 阅读

7 ·

CC 4.0 BY-SA版权

李宏毅机器学习笔记专栏收录该内容

58 篇文章

订阅专栏

本文围绕反向传播算法展开，指出其本质是神经网络版的梯度下降算法。介绍了链式法则这一基础知识，详细推导了反向传播中前向∂z/∂w和反向∂C/∂z的计算，分输出层和非输出层两种情况讨论，还说明了反向计算的过程，最后总结该算法较好理解但不如ng的严谨。

文章目录

前言
前情提要：previous on NN
基础知识Chain rule
反向传播 backpropagation
总结

前言

以后笔记里面都要加这节，相当于把总结放前面，有什么新的感悟也丢这里。
反向传播的推导老师有额外的一个视频，具体看一节课的笔记。
ng的深度学习里面号称这个推导是ML里面最为复杂的。
自我感觉其实不难，只不过里面的数学标记notation特别的多，容易搞混，最基础的链式法则明白，推导看得懂是没有问题的。
重点：李宏毅讲这个与ng不一样的地方就是在于他把反向传播的过程又看成一个神经网络，这个理解就很牛叉。
在线Latex公式

前情提要：previous on NN

接上节课的内（da）容（keng），上回书说到我们想用梯度下降的方式来训练一个神经网络应该怎么做：
在这里插入图片描述
其中困难的地方在于，参数太多，如果有效的计算梯度？答案就是反向传播算法。所以这个算法的本质就是神经网络版的梯度下降算法。

基础知识Chain rule

很简单的数学基础，直接看例子就知道，实际上就是复合函数求导。
示例1：
$y=g(x)\quad \quad z=h(y)$
$\Delta{x}\rightarrow\Delta{y}\rightarrow\Delta{z}\quad \quad \frac{dz}{dx}=\frac{dz}{dy}\frac{dy}{dx}$
示例2：
$x=g(s)\quad \quad y=h(s)\quad \quad z=k(x,y)$
在这里插入图片描述
PS：上面的图咋用latex公式输入？

反向传播 backpropagation

先祭出反向传播的代价函数：
$L(θ)=\sum_{n=1}^{N}C^n(θ)$
其中 $C^n$ 是 $y^n$ 和 $\widehat{y}^n$ 之间的距离， $C^n$ 大代表loss大， $C^n$ 小则loss较小，这个时候参数 $θ$ 是比较好的。如下图所示是输入一个training data $x^n$ ，输出一个 ${y}^n$ ：
在这里插入图片描述
代价函数中的求和就是把所有training data的输出 ${y}^n$ 和目标 $\hat{y}^n$ 距离加起来，然后求最小值，求极值就是求导数拉：
$\cfrac{\partial L(θ)}{\partial w}=\sum_{n=1}^{N}\cfrac{\partial{C^n(θ)}}{\partial w}$
这个问题按上面的公式就变成计算某一笔training data的偏导，然后再求和，所以问题集中在如何计算：
$\cfrac{\partial{C^n(θ)}}{\partial w}$
先从下图中的神经网络中的一个神经元来看
在这里插入图片描述
把红色三角部分拿出来，这个神经元是在第一层的第一个，他的输入是 $x_1,x_2$

计算前向 $\partial z/\partial w$

先看函数的样子，接上页：
$z=x_1w_1+x_2w_2+b$
求 $\partial z/\partial w_1=?$ ，秒算结果为 $x_1$
$\partial z/\partial w_2=?$ ，秒算结果为 $x_2$
前向传播的过程中， $\partial z/\partial w$ 的结果规律就是连接weight $w$ 的输入
在这里插入图片描述
从图中可以看出forward pass的过程很直白。

计算反向 $\partial C/\partial z$

先上图：
在这里插入图片描述
其中求 $σ^{'} (z)$ 可以自己推导，比较笨（lan）的就把结果当公式背下来。

这里看不懂的看下上面的基础知识的示例2

这里： $\cfrac{\partial z'}{\partial a}$ 是前向里面讲过的，就是秒算的 $w_3$
同理： $\cfrac{\partial z''}{\partial a}$ 是前向里面讲过的，就是秒算的 $w_4$
PS：老师的这个计算过程中的w的下标没有ng的例子里面讲得严谨啊，不过不影响理解算法。
现在假设 $\cfrac{\partial C}{\partial z'}$ 和 $\cfrac{\partial C}{\partial z''}$ 已经算出来，带入前面的式子：
$\frac{\partial C}{\partial z}=\sigma'(z)\left [w_3\frac{\partial C}{\partial z'}+w_4\frac{\partial C}{\partial z''}\right]$
接下来是个人认为李宏毅理解反向传播最牛叉的地方咯
上面的公式可以看成一个神经网络，他的正向传播过程就是原神经网络的反向传播。
在这里插入图片描述
只不过激活函数是乘上一个常数 $\sigma'(z)$ （之所以是常数是因为之前前向传播过程中这个东西是算出来了的。）
PS：至于为什么这里神经元的形状是三角形因为老师自称是电气系，里面乘以系数就和放大器一样，所以用运算放大器(Operational Amplifier,简称 OP、OPA、OPAMP)的图标三角形表示。
回到正题，刚才我们有假设 $\cfrac{\partial C}{\partial z'}$ 和 $\cfrac{\partial C}{\partial z''}$ 是已知，现在就分两种情况来求一下这两项。

情况一：输出层

在这里插入图片描述
这个情况算是比较简单，其中：
$\cfrac{\partial y_1}{\partial z'}$ 这个求导和最后输出层的激活函数有关；
$\cfrac{\partial C}{\partial y_1}$ 这个求导和最后求 $y^n$ 和 $\hat{y}^n$ 之间的距离函数有关，例如你可以用均方差，可以用交叉熵等等。

情况二：非输出层

在这里插入图片描述
上图中如果 $\cfrac{\partial C}{\partial z_a}$ 和 $\cfrac{\partial C}{\partial z_b}$ 是已知的，就可以利用上面的新神经网络计算反向的 $\cfrac{\partial C}{\partial z'}$
计算方式就是按箭头的方向进行前向计算：
$\cfrac{\partial C}{\partial z'}=\left(\cfrac{\partial C}{\partial z_a}w_5+\cfrac{\partial C}{\partial z_b}w_6\right)\cdot\sigma'(z')$
在这里插入图片描述
这样就进入了迭代，如果上图的绿色的神经元是输出，则按情况一，秒算。
如果不是输出层，则继续推下一层，往下算，直到输出层为止。
貌似很复杂，但是如果一开始就从输出层开始往回算，就很简单。
这个原理后来听了CS231n后发现和计算图有点像。

反向计算

实际上的计算应该是这样的：
在这里插入图片描述
之前的一开始就从 $z_1,z_2$ 开始算对C的偏导，发现算 $z_1,z_2$ 对C的偏导要先知道 $z_3,z_4$ 对C的偏导，算 $z_3,z_4$ 对C的偏导要先知道 $z_5,z_6$ 对C的偏导，崩溃ing。。。
现在如果从后面往前反向计算呢？

这里就是反向神经网络的最终形态，它除了原来的输出层之外，其他所有层的神经元的激活函数是通过之前的forward pass计算出来的 $\sigma'(z)$ ，然后再在这个新的反向神经网络上做forward pass，就可以计算每一项 $\cfrac{\partial C}{\partial z}$ ，以 $\cfrac{\partial C}{\partial z_3}$ 为例：
$\cfrac{\partial C}{\partial z_3}=\sigma'(z_3)\left [w_9\cfrac{\partial C}{\partial z_5}+w_{10}\cfrac{\partial C}{\partial z_6}\right]$
$w_9,w_{10}$ 就是指向 $z_3$ 的权重。