Backpropagation_label backpropagation-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_45769877/article/details/113931950

本文深入探讨神经网络中的梯度计算，包括交叉熵损失函数、总损失的计算以及梯度下降。介绍了前向传播（Forwardpass）和反向传播（Backwardpass）的概念，解释了如何通过链式法则计算损失函数对权重的偏导数。在输出层，使用softmax激活函数和交叉熵损失；在非输出层，继续沿用反向传播计算隐藏层的梯度。整个过程是梯度从输出层向输入层反向传播，用于权重更新和模型优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Review
Gradient
Forward pass
Backward pass
- - case 1：Output Layer
  - Case 2：Not Output Layer
Summary

Review

cross entropy
$l(y,\hat{y})=-\sum\limits_{i=1}^{n}\hat{y}_i lny_i$

$y$ ：目标分类结果
$\hat{y}$ ：预测分类结果
$n$ ：表示分类类别数

Multi-class classification问题中，常采用cross entropy，判断分类的好坏，我们把training data里任意一个样本点 $x^n$ 送到neural network里面，输出一个预测标签 $y^n$ ，我们把这个output跟样本点本身的label标注的target $\hat{y}^n$ 作cross entropy，这个交叉熵定义了output $y^n$ 和target $\hat{y}^n$ 之间的距离 $l^n(\theta)$ ，如果cross entropy比较大的话，说明output和target之间距离很远，以parameter为参数的network预测该样本的loss是比较大的。

total loss
$L(\theta)=\sum\limits_{n=1}^N l^n(\theta)$

$\theta$ ：该network的参数，包括所有的 $w$ 和 $b$
$l^n(\theta )$ ：以 $\theta$ 为参数的network预测值与目标值的cross entropy
$N$ ：通常定义的 $batch\ size$ ，即更新一次参数所考虑的样本数量
$L(\theta )$ ：对N个样本的cross entropy加和

通常一次考虑一个样本集合batch，对集合样本预测后求cross entropy加和后求得total loss，以total loss为标准求梯度对参数进行更新。这个样本集合大小batch size可以是一，这样就是随机梯度下降，batch size越大，考虑的样本越多，更新也就越稳定，速度也就越慢。

total loss的梯度

$L(\theta)$ 对参数 $w$ 做偏微分，表达式如下：
$\frac{\partial L(\theta)}{\partial w}=\sum\limits_{n=1}^N\frac{\partial l^n(\theta)}{\partial w}$
每一次参数的更新的梯度，是对一个batch中的各个数据的损失梯度 $\frac{\partial l^n(\theta)}{\partial w}$ 的加和，即预测模型对一个batch中个数据预测的cross entropy对参数 $w$ 的偏微分累计求和，作为total loss对某一个参数 $w$ 的梯度。

Gradient

loss funcation对neuron参数 $w$ 的偏导:
$\frac{\partial l}{\partial w}=\frac{\partial z}{\partial w} \frac{\partial l}{\partial z}$

$l$ ：某一样本预测值的cross entropy
$\frac{\partial z}{\partial w}$ ：称之为Forward pass
$\frac{\partial l}{\partial z}$ ：称之为Backward pass

假设前一层有两个input $x_1,x_2$ ，这个neuron的计算过程：

经过连接权值 $w$ 和偏置 $b$ 处理后的结果 $z=b+w_1 x_1+w_2 x_2$
$z$ 经过激励函数得到输出 $a = f (z)$ ，作为neuron的output

在这里插入图片描述
$\frac{\partial l}{\partial w}$ 作为loss funcation对neuron上 $w$ 的偏导，按照chain rule，可以把它拆分成两项， $\frac{\partial l}{\partial w}=\frac{\partial z}{\partial w} \frac{\partial l}{\partial z}$ ，前一项 $\frac{\partial z}{\partial w}$ 的过程称为Forward pass；后一项 $\frac{\partial l}{\partial z}$ 的过程称为Backward pass。

Forward pass

$z=b+w_1 x_1+w_2 x_2$ ，那么 $\frac{\partial z}{\partial w}$ 这一项，可以直接看出来， $\frac{\partial z}{\partial w_1}=x_1 ,\ \frac{\partial z}{\partial w_2}=x_2$

在这里插入图片描述
它的规律是：求 $\frac{\partial z}{\partial w}$ ，就是看 $w$ 前面连接的input是什么，那微分后的 $\frac{\partial z}{\partial w}$ 就是什么，因此只要计算出neural network里面每一层的outpu就可以作为下一层neuron中 $z$ 对 $w$ 的偏微分，因此在network前向计算的时候， $\frac{\partial z}{\partial w}$ 就已经被求出来。

Backward pass

计算 $\frac{\partial l}{\partial z}$ 这一项，考虑 $z$ 对loss funcation $l$ 的影响：首先， $z$ 通过激励函数后的output；其次，output作为下一层的neuron的input，参与到下一层的neuron的计算中，以此递推，直到output layer。
在这里插入图片描述
考虑1：假设激励函数为sigmoid函数，这个neuron的output $a=\sigma(z)$ ，那么链式法则分解后：
$\frac{\partial l}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial l}{\partial a}=\sigma'(z)\frac{\partial l}{\partial a}$

$\frac{\partial a}{\partial z}$ ：激励函数对 $z$ 的偏微分，可直接计算 $\sigma'(z)$
$\frac{\partial l}{\partial a}$ ：损失函数对output $a$ 的偏微分

考虑2：假设下一层只有两个neuron与本neuron相连，那么本neuron也就是通过这两个neuron传播它的影响，方式是将本neuron的output $a$ 作为下一层两个neuron的输入，即以下两个公式（两条路径）：
$z'=w_3a+...\\ z''=w_4a+...$

$z^{'}$ 和 $z^{''}$ 当然还有其他输入，但与计算本neuron的影响无关，用 $. . .$ 代替

链式法则分解后
$\frac{\partial l}{\partial a}=\frac{\partial z'}{\partial a} \frac{\partial l}{\partial z'}+\frac{\partial z''}{\partial a} \frac{\partial l}{\partial z''}=w_3\frac{\partial l}{\partial z'}+w_4\frac{\partial l}{\partial z''}$
这里先假设我们已经通过某种方法把 $\frac{\partial l}{\partial z'}$ 和 $\frac{\partial l}{\partial z''}$ 这两项给算出来了，那么
$\frac{\partial l}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial l}{\partial a}=\sigma'(z)[w_3 \frac{\partial l}{\partial z'}+w_4 \frac{\partial l}{\partial z''}]$

那么Backward pass这一部分可以看做梯度从后往前的传播
在这里插入图片描述

现在我们最后需要解决的问题是，怎么计算 $\frac{\partial l}{\partial z'}$ 和 $\frac{\partial l}{\partial z''}$ 这两项，有两个不同的case：

case 1：Output Layer

假设计算的这个neuron已经是hidden layer的最后一层了， $z^{'}$ 和 $z^{''}$ 所在的两个neuron是output layer，output layer做softmax处理后输出预测值，有了预测值，即可与目标计算损失。
在这里插入图片描述
$l$ 对于 $z^{'}$ 的偏微分:
$\frac{\partial l}{\partial z'}=\frac{\partial y_1}{\partial z'} \frac{\partial l}{\partial y_1}$

$y_1$ ： $z^{'}$ 经softmax（activation function）之后的预测值输出
$\frac{\partial y_1}{\partial z'}$ ：output layer的softmax函数对 $z^{'}$ 的偏微分
$\frac{\partial l}{\partial y_1}$ ：loss funcation对 $y_1$ 的偏微分，
$l$ ：损失函数，可以是MSE或cross entropy等

Case 2：Not Output Layer

假设这个neuron不是hidden layer的最后一层， $z^{'}$ 和 $z^{''}$ 所在的两个neuron仍然属于hidden layer。
在这里插入图片描述
如果知道 $\frac{\partial l}{\partial z_a}$ 和 $\frac{\partial l}{\partial z_b}$ ，我们就可以计算 $l$ 对于 $z^{'}$ 的偏微分:
$\frac{\partial l}{\partial z'}=\sigma'(z')[w_5 \frac{\partial l}{\partial z_a} + w_6 \frac{\partial l}{\partial z_b}]$

Example

对于Backward pass的部分需要从后往前，首先计算output layer，然后从后往前依层递推计算hidden layer，

在这里插入图片描述
对于上图，整一个流程是，计算出 $\frac{\partial l}{\partial z_5}$ 和 $\frac{\partial l}{\partial z_6}$ ，然后再把这两个偏微分的值乘上路径上的weight汇集到neuron上面，再通过op-amp $\sigma'(z_3)$ 和 $\sigma'(z_4)$ 放大，就可以得到 $\frac{\partial l}{\partial z_3}$ 和 $\frac{\partial l}{\partial z_4}$ 这两个偏微分的值，让它们乘上各自路径上的weight并通过op-amp $\sigma'(z_1)$ 和 $\sigma'(z_2)$ ，就得到 $\frac{\partial l}{\partial z_1}$ 和 $\frac{\partial l}{\partial z_2}$ 这两个偏微分的值，这样就计算完了，这个过程叫做Backward pass

Summary

Forward pass：每个neuron的activation function的output，就是它所连接的weight的 $\frac{\partial z}{\partial w}$

Backward pass：可以看做与原方向相反的梯度network，它的三角形neuron的output就是 $\frac{\partial l}{\partial z}$

把通过forward pass得到的 $\frac{\partial z}{\partial w}$ 和通过backward pass得到的 $\frac{\partial l}{\partial z}$ 乘起来就可以得到 $l$ 对 $w$ 的偏微分 $\frac{\partial l}{\partial w}$
$\frac{\partial l}{\partial w} = \frac{\partial z}{\partial w}|_{forward\ pass} \cdot \frac{\partial l}{\partial z}|_{backward \ pass}$