Softmax求导及多元交叉熵损失梯度推导

chansonzhang

已于 2023-08-12 12:00:06 修改

阅读量5.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： AI 文章标签：交叉熵多分类损失函数 softmax 随机梯度下降

于 2018-12-01 15:31:26 首次发布

本文链接：https://blog.youkuaiyun.com/chansonzhang/article/details/84674179

AI 专栏收录该内容

68 篇文章

订阅专栏

探讨了多分类神经网络中，从输入样本到预测概率的计算过程，包括权重矩阵与偏置向量的作用，以及如何通过softmax函数获得分类概率。详细解析了交叉熵损失函数的数学推导，包括其在独热编码情况下的简化形式，以及如何计算损失函数关于权重矩阵的梯度，用于神经网络的反向传播和权重更新。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

假设n为特征个数，K为目标分类个数，则：
对于一个 $n×1n\times 1$ 输入样本向量
$x=(x_1,\cdots,x_i,\cdots,x_n)^T$
一个 $K×nK\times n$ 的权重矩阵W（每行对应一个类）
以及一个 $K×1K\times 1$ 的偏置向量b

令 $z = W x + b$

则
$z_j=W_j x+b_j=\displaystyle\sum_{i=1}^{n} W_{j,i}x_i + b_j$

$y$ 为监督数据， $y^\hat{y}$ 为预测值， $y$ 和 $y^\hat{y}$ 均为 $K×1K\times 1$ 的向量。 $y^j\hat{y}_j$ 表示第样本 $x$ 被分到第 $t$ 个类的概率,
$y^j=softmax(z)j=ezj∑k=1Kezk \hat{y}_j=softmax(z)_j=\frac{e^{z_{j}}}{\sum^{K}_{k=1}e^{z_{k}}}$
多分类交叉熵损失函数为：
$Lcross-entropy(y^,y)=−∑yjlog(y^j) L_{\text{cross-entropy}}(\hat{y},y)=-\sum y_{j}log(\hat{y}_{j})$
假设只有一个正确分类为 $t$ ，则 $y$ 为独热向量， $yt=1,yj≠t=0y_t=1,y_{j\neq t}=0$ ,则损失函数变为：

$Lcross-entropy(y^,y)=−log(y^t) L_{\text{cross-entropy}}(\hat{y},y)=-log(\hat{y}_{t})$
$∂L∂y^t=−1y^t \dfrac{\partial L}{\partial \hat{y}_t}=-\dfrac{1}{\hat{y}_t}$
$∂yt∂zt=∂(ezt∑ezk)∂zt=ezt∑ezk−eztezt(∑ezk)2=y^t(1−y^t) \begin{aligned} \dfrac{\partial y_t}{\partial z_t}&=\dfrac{\partial (\frac{e^{z_{t}}}{\sum e^{z_{k}}})}{\partial z_t} \\ &=\dfrac{e^{z_t}\sum{e^{z_k}}-e^{z_t}e^{z_t}}{(\sum e^{z_k})^2} \\ &=\hat{y}_t(1-\hat{y}_t) \end{aligned}$
当 $j≠tj\ne t$ 时，
$∂yt∂zj=∂(ezt∑ezk)∂zj=ezt∂(1∑ezk)∂zj=ezt−ezj(∑ezk)2=−y^ty^j \begin{aligned} \dfrac{\partial y_t}{\partial z_j}&=\dfrac{\partial (\frac{e^{z_{t}}}{\sum e^{z_{k}}})}{\partial z_j} \\ &=e^{z_t}\dfrac{\partial (\frac{1}{\sum e^{z_{k}}})}{\partial z_j} \\ &=e^{z_t}\dfrac{-e^{z_j}}{(\sum e^{z_k})^2} \\ &=-\hat{y}_t \hat{y}_j \end{aligned}$
则
$∂L∂zt=∂L∂y^t∂yt∂zt=−1y^ty^t(1−y^t)=y^t−1 \begin{aligned} \dfrac{\partial L}{\partial z_t}&=\dfrac{\partial L}{\partial \hat{y}_t}\dfrac{\partial y_t}{\partial z_t} \\ &=-\dfrac{1}{\hat{y}_t}\hat{y}_t(1-\hat{y}_t) \\ &=\hat{y}_t-1 \end{aligned}$
当 $j≠tj\ne t$ 时，
$∂L∂zj=∂L∂y^t∂yt∂zj=−1y^t(−y^ty^j)=y^j \begin{aligned} \dfrac{\partial L}{\partial z_j}&=\dfrac{\partial L}{\partial \hat{y}_t}\dfrac{\partial y_t}{\partial z_j} \\ &=-\dfrac{1}{\hat{y}_t}(-\hat{y}_t \hat{y}_j) \\ &=\hat{y}_j \end{aligned}$

实际上，当泛化到 $y$ 不是独热向量的情况下，则有 $∂L∂zj=y^j−yj\frac{\partial{L}}{\partial{z_j}}=\hat{y}_j-y_j$ .

对于包含一个隐藏层的3层神经网络，
此时假如输出 $y^\hat{y}$ =(0.1, 0.2, 0.3)，假设输入x对应的正确分类为t=1，则对隐藏层求梯度结果为（0.1，0.2-1, 0.3）=（0.1, -0.8, 0.3）

此时再反向传播，对输入 $x$ 求梯度，然后利用随机梯度下降更新隐藏层权重即可。

如果我们直接对 $W$ 求导：
$∂L∂Wt,i=∂L∂zt∂zt∂Wt,i=(y^t−1)xi \begin{aligned} \dfrac{\partial L}{\partial W_{t,i}}&=\dfrac{\partial L}{\partial z_t}\dfrac{\partial z_t}{\partial W_t,i} \\ &=(\hat{y}_t-1)x_i \end{aligned}$
若 $j≠tj\ne t$ 时
$∂L∂Wj,i=∂L∂zj∂zj∂Wj,i=(y^j)xi \begin{aligned} \dfrac{\partial L}{\partial W_{j,i}}&=\dfrac{\partial L}{\partial z_j}\dfrac{\partial z_j}{\partial W_j,i} \\ &=(\hat{y}_j)x_i \end{aligned}$

统一起来有：
$∂L∂Wj,i=(y^j−1{j=t})xi \dfrac{\partial L}{\partial W_{j,i}}=(\hat{y}_j-1\{j=t\})x_i$
其中
$1\{j=t\}=\begin{cases} 1, &j=t \\ 0,&j\ne t \end{cases}$