Backpropagation
Backpropagation(反向传播),就是告诉我们用gradient descent来train一个neural network的时候该怎么做,它只是求微分的一种方法,而不是一种新的算法
1. Gradient Descent
-
gradient descent当它用在neural network的时候,network parameters θ=w1,w2,...,b1,b2,...\theta=w_1,w_2,...,b_1,b_2,...θ=w1,w2,...,b1,b2,...里面可能会有将近million个参数
-
所以现在最大的困难是,如何有效地把这个近百万维的vector给计算出来,这就是Backpropagation要做的事情
-
所以Backpropagation并不是一个和gradient descent不同的training的方法,它就是gradient descent,它只是一个比较有效率的算法,让你在计算这个gradient的vector的时候更有效率
2. Chain Rule
- 对整个neural network,我们定义了一个loss function:L(θ)=∑n=1Nln(θ)L(\theta)=\sum\limits_{n=1}^N l^n(\theta)L(θ)=n=1∑Nln(θ),它等于所有training data的loss之和

-
我们把training data里任意一个样本点xnx^nxn在neural network会output一个yny^nyn,把output跟样本点本身的label标注的target y^n\hat{y}^ny^n作cross entropy,这个交叉熵定义了output yny^nyn和target y^n\hat{y}^ny^n之间的距离ln(θ)l^n(\theta)ln(θ),也就是单个的损失函数。
-
然后summation over所有training data的cross entropy ln(θ)l^n(\theta)ln(θ),得到total loss L(θ)L(\theta)L(θ),这就是我们的loss function,用这个L(θ)L(\theta)L(θ)对某一个参数w做偏微分,表达式如下:
∂L(θ)∂w=∑n=1N∂ln(θ)∂w \frac{\partial L(\theta)}{\partial w}=\sum\limits_{n=1}^N\frac{\partial l^n(\theta)}{\partial w} ∂w∂L(θ)=n=1∑N∂w∂ln(θ) -
这个表达式告诉我们,只需要考虑如何计算对某一笔data的∂ln(θ)∂w\frac{\partial l^n(\theta)}{\partial w}∂w∂ln(θ),再将所有training data的cross entropy对参数w的偏微分累计求和,就可以把total loss对某一个参数w的偏微分给计算出来
-
我们先考虑某一个neuron,先拿出上图中被红色三角形圈住的neuron,假设只有两个input x1,x2x_1,x_2x1,x2,通过这个neuron,我们先得到z=b+w1x1+w2x2z=b+w_1 x_1+w_2 x_2z=b+w1x1+w2x2,然后经过activation function从这个neuron中output出来,作为后续neuron的input,再经过了非常非常多的事情以后,会得到最终的output y1,y2y_1,y_2y1,y2
-
现在的问题是这样:∂l∂w\frac{\partial l}{\partial w}∂w∂l该怎么算?按照chain rule,可以把它拆分成两项,∂l∂w=∂z∂w∂l∂z\frac{\partial l}{\partial w}=\frac{\partial z}{\partial w} \frac{\partial l}{\partial z}∂w∂l=∂w∂z∂z∂l,这两项分别去把它计算出来。前面这一项是比较简单的,后面这一项是比较复杂的
-
计算前面这一项∂z∂w\frac{\partial z}{\partial w}∂w∂z的这个process,我们称之为Forward pass;而计算后面这项∂l∂z\frac{\partial l}{\partial z}∂z∂l的process,我们称之为Backward pass

3. Forward pass
先考虑∂z∂w\frac{\partial z}{\partial w}∂w∂z这一项,完全可以秒算出来,∂z∂w1=x1, ∂z∂w2=x2\frac{\partial z}{\partial w_1}=x_1 ,\ \frac{\partial z}{\partial w_2}=x_2∂w1∂z=x1, ∂w2∂z=x2
它的规律是这样的:求∂z∂w\frac{\partial z}{\partial w}∂w∂z,就是看w前面连接的input是什么,那微分后的∂z∂w\frac{\partial z}{\partial w}∂w∂z值就是什么,因此只要计算出neural network里面每一个neuron的output就可以知道任意的z对w的偏微分
- 比如input layer作为neuron的输入时,w1w_1w1前面连接的是x1x_1x1,所以微分值就是x1x_1x1;w2w_2w2前面连接的是x2x_2x2,所以微分值就是x2x_2x2
- 比如hidden layer作为neuron的输入时,那该neuron的input就是前一层neuron的output,于是∂z∂w\frac{\partial z}{\partial w}∂w∂z的值就是前一层的z经过activation function之后输出的值(下图中的数据是假定activation function为sigmoid function得到的)

4. Backward pass
再考虑∂l∂z\frac{\partial l}{\partial z}∂z∂l这一项,它是比较复杂的,这里我们依旧假设activation function是sigmoid function
4.1 公式推导
我们的z通过activation function得到a,这个neuron的output是a=σ(z)a=\sigma(z)a=σ(z),接下来这个a会乘上某一个weight w3w_3w3,再加上其它一大堆的value得到z′z'z′,它是下一个neuron activation function的input,然后a又会乘上另一个weight w4w_4w4,再加上其它一堆value得到z′′z''z′′,后面还会发生很多很多其他事情,不过这里我们就只先考虑下一步会发生什么事情:
∂l∂z=∂a∂z∂l∂a
\frac{\partial l}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial l}{\partial a}
∂z∂l=∂z∂a∂a∂l
这里的∂a∂z\frac{\partial a}{\partial z}∂z∂a实际上就是activation function的微分(在这里就是sigmoid function的微分),接下来的问题是∂l∂a\frac{\partial l}{\partial a}∂a∂l应该长什么样子呢?a会影响z′z'z′和z′′z''z′′,而z′z'z′和z′′z''z′′会影响lll,所以通过chain rule可以得到
∂l∂a=∂z′∂a∂l∂z′+∂z′′∂a∂l∂z′′
\frac{\partial l}{\partial a}=\frac{\partial z'}{\partial a} \frac{\partial l}{\partial z'}+\frac{\partial z''}{\partial a} \frac{\partial l}{\partial z''}
∂a∂l=∂a∂z′∂z′∂l+∂a∂z′′∂z′′∂l
这里的∂z′∂a=w3\frac{\partial z'}{\partial a}=w_3∂a∂z′=w3,∂z′′∂a=w4\frac{\partial z''}{\partial a}=w_4∂a∂z′′=w4,那∂l∂z′\frac{\partial l}{\partial z'}∂z′∂l和∂l∂z′′\frac{\partial l}{\partial z''}∂z′′∂l又该怎么算呢?这里先假设我们已经通过某种方法把∂l∂z′\frac{\partial l}{\partial z'}∂z′∂l和∂l∂z′′\frac{\partial l}{\partial z''}∂z′′∂l这两项给算出来了,然后回过头去就可以把∂l∂z\frac{\partial l}{\partial z}∂z∂l给轻易地算出来
∂l∂z=∂a∂z∂l∂a=σ′(z)[w3∂l∂z′+w4∂l∂z′′]
\frac{\partial l}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial l}{\partial a}=\sigma'(z)[w_3 \frac{\partial l}{\partial z'}+w_4 \frac{\partial l}{\partial z''}]
∂z∂l=∂z∂a∂a∂l=σ′(z)[w3∂z′∂l+w4∂z′′∂l]

4.2 另一个观点
你可以想象说,现在有另外一个neuron,它不在我们原来的network里面,在下图中它被画成三角形,这个neuron的input就是∂l∂z′\frac{\partial l}{\partial z'}∂z′∂l和∂l∂z′′\frac{\partial l}{\partial z''}∂z′′∂l,那input ∂l∂z′\frac{\partial l}{\partial z'}∂z′∂l就乘上w3w_3w3,input ∂l∂z′′\frac{\partial l}{\partial z''}∂z′′∂l就乘上w4w_4w4,它们两个相加再乘上activation function的微分 σ′(z)\sigma'(z)σ′(z),就可以得到output ∂l∂z\frac{\partial l}{\partial z}∂z∂l

-
值得注意的是,这里的σ′(z)\sigma'(z)σ′(z)是一个constant常数,它并不是一个function,因为z其实在计算forward pass的时候就已经被决定好了,z是一个固定的值
-
所以这个neuron其实跟我们之前看到的sigmoid function是不一样的,它并不是把input通过一个non-linear进行转换,而是直接把input乘上一个constant σ′(z)\sigma'(z)σ′(z),就得到了output,因此这个neuron被画成三角形,代表它跟我们之前看到的圆形的neuron的运作方式是不一样的,它是直接乘上一个constant(这里的三角形有点像电路里的运算放大器op-amp,它也是乘上一个constant)
4.3 两种情况
ok,现在我们最后需要解决的问题是,怎么计算∂l∂z′\frac{\partial l}{\partial z'}∂z′∂l和∂l∂z′′\frac{\partial l}{\partial z''}∂z′′∂l这两项,假设有两个不同的case:
4.3.1 case 1:Output Layer
假设蓝色的这个neuron已经是hidden layer的最后一层了,也就是说连接在z′z'z′和z′′z''z′′后的这两个红色的neuron已经是output layer,它的output就已经是整个network的output了,这个时候计算就比较简单
∂l∂z′=∂y1∂z′∂l∂y1
\frac{\partial l}{\partial z'}=\frac{\partial y_1}{\partial z'} \frac{\partial l}{\partial y_1}
∂z′∂l=∂z′∂y1∂y1∂l
其中∂y1∂z′\frac{\partial y_1}{\partial z'}∂z′∂y1就是output layer的activation function (softmax) 对z′z'z′的偏微分
而∂l∂y1\frac{\partial l}{\partial y_1}∂y1∂l就是loss对y1y_1y1的偏微分,它取决于你的loss function是怎么定义的,也就是你的output和target之间是怎么evaluate的,你可以用cross entropy,也可以用mean square error,用不同的定义,∂l∂y1\frac{\partial l}{\partial y_1}∂y1∂l的值就不一样
这个时候,你就已经可以把lll对w1w_1w1和w2w_2w2的偏微分∂l∂w1\frac{\partial l}{\partial w_1}∂w1∂l、∂l∂w2\frac{\partial l}{\partial w_2}∂w2∂l算出来了

4.3.2 Case 2:Not Output Layer
假设现在红色的neuron并不是整个network的output,那z′z'z′经过红色neuron的activation function得到a′a'a′,然后output a′a'a′和w5w_5w5、w6w_6w6相乘并加上一堆其他东西分别得到zaz_aza和zbz_bzb,如下图所示

根据之前的推导证明类比,如果知道∂l∂za\frac{\partial l}{\partial z_a}∂za∂l和∂l∂zb\frac{\partial l}{\partial z_b}∂zb∂l,我们就可以计算∂l∂z′\frac{\partial l}{\partial z'}∂z′∂l,如下图所示,借助运算放大器的辅助理解,将∂l∂za\frac{\partial l}{\partial z_a}∂za∂l乘上w5w_5w5和∂l∂zb\frac{\partial l}{\partial z_b}∂zb∂l乘上w6w_6w6的值加起来再通过op-amp,乘上放大系数σ′(z′)\sigma'(z')σ′(z′),就可以得到output ∂l∂z′\frac{\partial l}{\partial z'}∂z′∂l
∂l∂z′=σ′(z′)[w5∂l∂za+w6∂l∂zb]
\frac{\partial l}{\partial z'}=\sigma'(z')[w_5 \frac{\partial l}{\partial z_a} + w_6 \frac{\partial l}{\partial z_b}]
∂z′∂l=σ′(z′)[w5∂za∂l+w6∂zb∂l]

-
知道z′z'z′和z′′z''z′′就可以知道zzz,知道zaz_aza和zbz_bzb就可以知道z′z'z′,… ,现在这个过程就可以反复进行下去,直到找到output layer,我们可以算出确切的值,然后再一层一层反推回去
-
你只要换一个方向,从output layer的∂l∂z\frac{\partial l}{\partial z}∂z∂l开始算,你就会发现它的运算量跟原来的network的Feedforward path其实是一样的
假设现在有6个neuron,每一个neuron的activation function的input分别是z1z_1z1、z2z_2z2、z3z_3z3、z4z_4z4、z5z_5z5、z6z_6z6,我们要计算lll对这些zzz的偏微分

- 先去计算z5z_5z5和z6z_6z6的偏微分的话,这个process,就突然之间变得有效率起来了,我们先去计算∂l∂z5\frac{\partial l}{\partial z_5}∂z5∂l和∂l∂z6\frac{\partial l}{\partial z_6}∂z6∂l,然后就可以算出∂l∂z3\frac{\partial l}{\partial z_3}∂z3∂l和∂l∂z4\frac{\partial l}{\partial z_4}∂z4∂l,最后就可以算出∂l∂z1\frac{\partial l}{\partial z_1}∂z1∂l和∂l∂z2\frac{\partial l}{\partial z_2}∂z2∂l,而这一整个过程,就可以转化为op-amp运算放大器的那张图

-
这里每一个op-amp的放大系数就是σ′(z1)\sigma'(z_1)σ′(z1)、σ′(z2)\sigma'(z_2)σ′(z2)、σ′(z3)\sigma'(z_3)σ′(z3)、σ′(z4)\sigma'(z_4)σ′(z4)
-
所以整一个流程就是,先快速地计算出∂l∂z5\frac{\partial l}{\partial z_5}∂z5∂l和∂l∂z6\frac{\partial l}{\partial z_6}∂z6∂l,然后再把这两个偏微分的值乘上路径上的weight汇集到neuron上面,再通过op-amp的放大,就可以得到∂l∂z3\frac{\partial l}{\partial z_3}∂z3∂l和∂l∂z4\frac{\partial l}{\partial z_4}∂z4∂l这两个偏微分的值,再让它们乘上一些weight,并且通过一个op-amp,就得到∂l∂z1\frac{\partial l}{\partial z_1}∂z1∂l和∂l∂z2\frac{\partial l}{\partial z_2}∂z2∂l这两个偏微分的值,这样就计算完了,这个步骤,就叫做Backward pass
-
计算Backward pass的时候,就是建一个反向的neural network,它的activation function就是一个运算放大器op-amp, 每一个反向neuron的input是loss lll对后面一层layer的zzz的偏微分∂l∂z\frac{\partial l}{\partial z}∂z∂l,output则是loss lll对这个neuron的zzz的偏微分∂l∂z\frac{\partial l}{\partial z}∂z∂l ,做Backward pass就是通过这样一个反向neural network的运算,把loss lll对每一个neuron的zzz的偏微分∂l∂z\frac{\partial l}{\partial z}∂z∂l都给算出来
注:如果是正向做Backward pass的话,实际上每次计算一个∂l∂z\frac{\partial l}{\partial z}∂z∂l,就需要把该neuron后面所有的∂l∂z\frac{\partial l}{\partial z}∂z∂l都给计算一遍,会造成很多不必要的重复运算,如果写成code的形式,就相当于调用了很多次重复的函数;而如果是反向做Backward pass,实际上就是把这些调用函数的过程都变成调用“值”的过程,因此可以直接计算出结果,而不需要占用过多的堆栈空
Summary
最后,我们来总结一下Backpropagation是怎么做的
-
Forward pass,每个neuron的activation function的output,就是它所连接的weight的∂z∂w\frac{\partial z}{\partial w}∂w∂z
-
Backward pass,建一个与原来方向相反的neural network,它的三角形neuron的output就是∂l∂z\frac{\partial l}{\partial z}∂z∂l
-
把通过forward pass得到的∂z∂w\frac{\partial z}{\partial w}∂w∂z和通过backward pass得到的∂l∂z\frac{\partial l}{\partial z}∂z∂l乘起来就可以得到lll对www的偏微分∂l∂w\frac{\partial l}{\partial w}∂w∂l
∂l∂w=∂z∂w∣forward pass⋅∂l∂z∣backward pass \frac{\partial l}{\partial w} = \frac{\partial z}{\partial w}|_{forward\ pass} \cdot \frac{\partial l}{\partial z}|_{backward \ pass} ∂w∂l=∂w∂z∣forward pass⋅∂z∂l∣backward pass

本文介绍了反向传播(Backpropagation)算法,它是用梯度下降训练神经网络时求微分的有效方法。文中阐述了梯度下降在神经网络中的应用难点,通过链式法则将计算偏微分拆分为前向传播(Forward pass)和反向传播(Backward pass),并详细推导了不同情况下的计算过程,最后总结了算法流程。
1612

被折叠的 条评论
为什么被折叠?



