Softmax Cross Entropy 梯度推导

最新推荐文章于 2024-07-10 15:22:31 发布

DevAejanlng

最新推荐文章于 2024-07-10 15:22:31 发布

阅读量2.1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：深度学习基础文章标签： softmax 交叉熵梯度深度学习

本文链接：https://blog.youkuaiyun.com/DevAejanlng/article/details/83502381

本文详细介绍了Softmax函数的梯度计算及其在交叉熵损失函数中的应用。通过数学推导得出，Softmax的梯度为- pj/pi (i≠j) 和 pi(1-pj) (i=j)，交叉熵损失关于输入的梯度为pj - yj，这些结果对于理解深度学习中模型的训练至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Softmax Cross Entropy 梯度推导

Softmax的梯度
Softmax交叉熵的梯度
引用

Softmax的梯度

Softmax定义：
$p_i = \frac{e^{a_i}}{\sum_{k=1}^Ne^{a_k}}, \quad i\in N$
数值稳定的Softmax：
$\frac{e^{a_i}}{\sum_{k=1}^Ne^{a_k}} = \frac{Ce^{a_i}}{C\sum_{k=1}^Ne^{a_k}} = \frac{e^{a_i + \log{C}}}{\sum_{k=1}^Ne^{a_k + \log{C}}}, \quad i \in N$
其中 $\log{C} = -\max{(\bm{a})}$

对于向量函数Softmax，第i个输出相对于第j个输入的偏导数可以定义如下：
$\frac{\partial p_i}{\partial a_j} = \frac{\partial{\frac{e^{a_i}}{\sum_{k=1}^Ne^{a_k}}}}{\partial a_j}$
那么根据商的求导法则：
$\frac{g(x)}{h(x)}, \quad f'(x) = \frac{g'(x)h(x) - h'(x)g(x)}{(h(x))^2}$
在这里， $g_i = e^{a_i},\quad h_i = \sum_{k=1}^Ne^{a_k}$