多分类（Softmax）交叉熵损失函数反向传播推导

最新推荐文章于 2025-04-02 22:17:32 发布

Wilhelm_M

最新推荐文章于 2025-04-02 22:17:32 发布

阅读量647

点赞数 7

分类专栏：自然语言处理随笔文章标签：深度学习自然语言处理神经网络

本文链接：https://blog.youkuaiyun.com/Wilhelm_M/article/details/140036976

版权

自然语言处理随笔专栏收录该内容

2 篇文章

订阅专栏

在上一篇随笔中，我提到了多分类（Softmax）交叉熵损失函数反向传播为 $y-t$ ，但并未证明，现将证明过程附上。

首先，多分类的Softmax函数为：

$y_{i} = \frac{e^{x_{i}}}{\sum_{j}e^{x_{j}}}$

交叉熵损失函数为：

$L = -\sum_{i}t_{i}lny_{i}$

$x$ 为输入值， $k$ 为输入值的第 $k$ 个维度， $y$ 为预测值， $i$ 为第 $i$ 个标签， $t$ 为真实值。所求的反向传播，实际上是损失函数 $L$ 对于入参每个维度 $k$ 的偏导数 $\frac{\partial L}{\partial x_{k}}$ 。

$\frac{\partial L}{\partial x_{k}} = \sum_{i}^{}\frac{\partial L}{\partial y_{i}}\frac{\partial y_{i}}{\partial x_{k}}$

而 $\frac{\partial L}{\partial y_{i}} = -\frac{t_{i}}{y_{i}}$ ， $\frac{\partial y_{i}}{\partial x_{k}} = \frac{\partial }{\partial x_{k}}\left (\frac{e^{x_{i}}}{\sum_{j}e^{x_{j}}} \right )$

因此 $\frac{\partial L}{\partial x_{k}} = -\sum_{i}^{}\frac{t_{i}}{y_{i}}\frac{\partial }{\partial x_{k}}\left (\frac{e^{x_{i}}}{\sum_{j}e^{x_{j}}} \right )$

注意到，上式右边偏导数的算法取决于 $i$ 与 $k$ 是否相等，因此我们将上式分开。有：

$\frac{\partial L}{\partial x_{k}} = -\left (\frac{t_{k}}{y_{k}}\frac{\partial }{\partial x_{k}}\left (\frac{e^{x_{k}}}{\sum_{j}e^{x_{j}}} \right ) + \sum_{i\neq k}^{}\frac{t_{i}}{y_{i}}\frac{\partial }{\partial x_{k}}\left (\frac{e^{x_{i}}}{\sum_{j}e^{x_{j}}} \right ) \right )$

而 $\frac{\partial }{\partial x_{k}}\left (\frac{e^{x_{k}}}{\sum_{j}e^{x_{j}}} \right ) = \frac{e^{x_{k}}\left ( \sum_{j}e^{x_{j}} - e^{x_{k}} \right )}{\left (\sum_{j}e^{x_{j}} \right )^{2}} = y_{k}\left ( 1 - y_{k} \right )$

$\frac{\partial }{\partial x_{k}}\left (\frac{e^{x_{i}}}{\sum_{j}e^{x_{j}}} \right ) = - \frac{e^{x_{i}}e^{x_{k}}}{\left (\sum_{j}e^{x_{j}} \right )^{2}} = -y_{i}y_{k}$

因此 $\frac{\partial L}{\partial x_{k}} = -\left (\frac{t_{k}}{y_{k}} y_{k}\left ( 1 - y_{k} \right ) - \sum_{i\neq k}^{}\frac{t_{i}}{y_{i}}y_{i}y_{k} \right )$