斯坦福大学深度学习公开课cs231n学习笔记（4）正向传播及反向传播

最新推荐文章于 2022-12-21 00:37:51 发布

Naruto_Q

最新推荐文章于 2022-12-21 00:37:51 发布

阅读量672

点赞数

分类专栏：深度学习(deep learning) 文章标签：深度学习公开课

本文链接：https://blog.youkuaiyun.com/piaoxuezhong/article/details/78694642

版权

深度学习(deep learning) 专栏收录该内容

20 篇文章

订阅专栏

本文详细解析了CS231n课程中的反向传播原理，通过实例介绍了前向传播、后向传播的过程及误差计算方法，并探讨了分段反向传播和回传流中的模式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在cs231n反向传播这节课中，主要利用简单的函数讲了梯度的求解，梯度的链式求解法则，前向传播，后向传播等概念知识，其中对于梯度和链式求解方法，上过高数课的相信都比较了解，所以我主要对前向传播和后向传播作下学习笔记：

对于前向传播，为了方便，我继续使用知乎上的三层网络经典例子：

对于上图1中的权重W和偏置b,初始化为下图2所示的值：

前向传播：

下面展开计算前向传播过程，首先是对中间隐层：

计算 $h_{1}$ 的所有输入： $net_{h_{1} } =w_{1}\ast i_{1} +w_{2}\ast i_{2}+b_{1}\ast 1$ ，代入数据得： $net_{h_{1} } =0.15\ast 0.05 +0.2\ast 0.1+0.35\ast 1=0.3775$ ;
计算 $h_{1}$ 的输出: $out_{h_{1} }=\frac{1}{1+e^{-net_{h_{1} } } } =\frac{1}{1+e^{-0.3775} }=0.593269992$ ;
同样的方法得： $out_{h_{2} }=0.596884378$ ；

然后对输出层计算，此时第一步的隐层神经元的输出作为输出层的输入：

$net_{o_{1} } =w_{5}\ast out_{h_{1} } +w_{6}\ast out_{h_{2} }+b_{2}\ast 1$ ，代入数据得：

$net_{o_{1} } =0.4\ast 0.593269992 +0.45\ast 0.596884378+0.6=1.105905967$ ，计算o1的输出：

$out_{o_{1} }=\frac{1}{1+e^{-net_{o_{1} } } } =\frac{1}{1+e^{-1.105905967} }=0.75136507$ 。

同样的方法得到： $out_{o_{2} }=0.772928465$ 。

到这一步，就完成了前向传播的计算，为了引出反向传播，还需要引入误差这个概念：

在图2中，我们赋予了o1和o2初值分别为：0.01和0.99，此时就存在了误差，误差的定义为：

$E_{total} =\sum_{}^{}{\frac{1}{2}(target - output)^{2} }$

上面的例子中，把数值带入得到误差为：

$E_{o_{1} } =\sum_{}^{}{\frac{1}{2}(0.01 - 0.75136507)^{2} }=0.298371109$

同样的： $E_{o_{2} } =0.023560026$

总误差为：

反向传播：

下面可以对反向传播展开了，以输出层的权重参数w5为例，如果想知道权重w5对整体误差的影响，需要根据链式法则对整体误差求w5得偏导数：

$\frac{d E_{total} }{d w_{5} }=\frac{d E_{total} }{d out_{o_{1} } }\ast\frac{d out_{o_{1} } }{d net_{o_{1} } }\ast \frac{d net_{o_{1} } }{d w_{5} }$ （1）

下图3更直观地展示了误差的反向传播过程：

对式（1）中的每项进行计算，然后链式相乘，便可以得到总的结果，具体推导过程请参见，这里摘录过程：

为了减少误差，从当前的权重w5减去求得的这个误差梯度（学习率选择0.5），得：

$w_5^+=w_5-\eta \frac{\partial {E_{total}}}{\partial {w_5}}$
同样的，对隐层权重w1进行类似的计算：

$\frac{\partial {E_{total}}}{\partial {w_1}}=\frac{\partial {E_{total}}}{\partial {out_{h_1}}}\frac{\partial {out_{h_1}}}{\partial {net_{h_1}}}\frac{\partial {net_{h_1}}}{\partial {w_1}}$ （2）
对链式中的每一项分别进行计算便可以得到式（2）的结果，然后根据结果进行w1的迭代：

$w_1^+=w_1-\eta \frac{\partial{E_{total}}}{\partial{w_1}}$

上面的例子，比较清楚的解释了前向传播和后向传播的过程，反向传播可以看成是单元之间通过梯度相互通信，让它们的输入沿着梯度方向变化，使得最后的误差最小。下面是cs231n课中提到的其他几个概念：分段反向传播，回传流中的模式。

分段反向传播：

以下面的表达式（3）为例：

$\displaystyle f(w,x)=\frac{1}{1+e^{-(w_0x_0+w_1x_1+w_2)}}$ （3）

表达式（3）是一个包含输入x和权重w的2维神经元，该神经元使用sigmoid激活函数。计算过程如下：

w = [2,-3,-3] # assume some random weights and data
x = [-1, -2]

# forward pass
dot = w[0]*x[0] + w[1]*x[1] + w[2]
f = 1.0 / (1 + math.exp(-dot)) # sigmoid function

# backward pass through the neuron (backpropagation)
ddot = (1 - f) * f # gradient on dot variable, using the sigmoid gradient derivation
dx = [w[0] * ddot, w[1] * ddot] # backprop into x
dw = [x[0] * ddot, x[1] * ddot, 1.0 * ddot] # backprop into w

程序中创建了一个中间变量dot：权重w和x的点乘结果，这样分段开使得反向传播更加简洁。另外，在反向传播时也可以计算出装着w和x等的梯度的对应的变量（ddot，dx和dw）。