多标签softmax + cross-entropy交叉熵损失函数详解及反向传播中的梯度求导

最新推荐文章于 2025-04-18 19:33:02 发布

BrightLampCsdn

最新推荐文章于 2025-04-18 19:33:02 发布

阅读量4.4k

点赞数 7

分类专栏：深度学习基础

本文链接：https://blog.youkuaiyun.com/oBrightLamp/article/details/84069835

版权

本文详细介绍了在多标签分类中，softmax与cross-entropy结合时的反向传播过程中梯度的求导过程。通过公式推导，展示了从输入向量x到误差值e的梯度计算，揭示了这种组合可以简化计算量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

本文求解 softmax + cross-entropy 在反向传播中的梯度.

正文

在大多数教程中, softmax 和 cross-entropy 总是一起出现, 求梯度的时候也是一起考虑.
softmax 和 cross-entropy 的梯度, 已经在上面的两篇文章中分别给出.

1. 题目

考虑一个输入向量 x, 经 softmax 函数归一化处理后得到向量 s 作为预测的概率分布, 已知向量 y 为真实的概率分布, 由 cross-entropy 函数计算得出误差值 error (标量 e ), 求 e 关于 x 的梯度.
$\quad\\ x = (x_1, x_2, x_3, \cdots, x_k)\\ \quad\\ s = softmax(x)\\ \quad\\ s_{i} = \frac{e^{x_{i}}}{ \sum_{t = 1}^{k}e^{x_{t}}} \\ \quad\\ e = crossEntropy(s, y) = -\sum_{i = 1}^{k}y_{i}log(s_{i})\\$

已知 :
$\nabla e_{(s)}=\frac{\partial e}{\partial s} =(\frac{\partial e}{\partial s_{1}},\frac{\partial e}{\partial s_{2}}, \cdots, \frac{\partial e}{\partial s_{k}}) =( -\frac{y_1}{s_1}, -\frac{y_2}{s_2},\cdots,-\frac{y_k}{s_k}) \\ \;\\ % ---------- \nabla s_{(x)}= \frac{\partial s}{\partial x}= \begin{pmatrix} \partial s_{1}/\partial x_{1}&\partial s_{1}/\partial x_{2}& \cdots&\partial s_{1}/\partial x_{k}\\ \partial s_{2}/\partial x_{1}&\partial s_{2}/\partial x_{2}& \cdots&\partial s_{2}/\partial x_{k}\\ \vdots & \vdots & \ddots & \vdots \\ \partial s_{k}/\partial x_{1}&\partial s_{k}/\partial x_{2}& \cdots&\partial s_{k}/\partial x_{k}\\ \end{pmatrix}= \begin{pmatrix} -s_{1}s_{1} + s_{1} & -s_{1}s_{2} & \cdots & -s_{1}s_{k} \\ -s_{2}s_{1} & -s_{2}s_{2} + s_{2} & \cdots & -s_{2}s_{k} \\ \vdots & \vdots & \ddots & \vdots \\ -s_{k}s_{1} & -s_{k}s_{2} & \cdots & -s_{k}s_{k} + s_{k} \end{pmatrix} \\ \quad\\$