Softmax 以及交叉熵损失函数的求导

最新推荐文章于 2025-10-13 22:38:57 发布

原创最新推荐文章于 2025-10-13 22:38:57 发布 · 5.7k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络

AI 专栏收录该内容

3 篇文章

订阅专栏

本文详细解析了输出层的工作原理及其与代价函数的关系。介绍了使用softmax作为输出函数时，如何计算输出层的梯度，并结合交叉熵代价函数推导出了输入数据的导数表达式。

Ouput layer & 代价函数

网络结构

Output later 有K个神经元，有K个输入和输出。为了分别标记输入和输出，用 $a_{i\in[1,K]}$ 来表示Output layer的输入数据， $y_{j\in[1,K]}$ 来表示Output layer输出点数据。每个输入数据 $a_{i\in[1,K]}$ 和隐藏层的H个块之间是全连接的。
这里写图片描述

输入和输出数据

每个Output layer层的输入数据是 $a_{i}=\sum^{H}_{h=1}w_{hi}b_{h}$ 。
当使用softmax输出函数的时候，每个Output layer层的输出数据就为 $y_{j}=\frac{e^{a_j}}{\sum^{K}_{j'=1}{e^{a_{j'}}}}$ 。
当使用交差熵代价函数的时候 $\mathcal{L}(x,z)=-\sum^{K}_{j=1}z_jln{y_j}$ ，这里 $z_j$ 是各个输出点的目标分类结果，在训练数据中已经给出来了。

求导数

这里要求的是代价函数对每个输入数据的导数 $\delta_{i}=\frac{\partial \mathcal{L}(x,z)}{\partial a_i}$ 。在反向传播中 $\delta_{i}$ 会传播给后续网络。

首先复习一下会用到的基本的微积分知识：

(u v)' = u' v + u v' l n (x)' = 1 x

$(uv)'=u'v+uv'\\ ln(x)'=\frac{1}{x}$

交叉熵的导数：

对于任意一个输出 $y_j$ 的导数

\partial L ( x , z ) \partial y j = \partial - \sum K j ' = 1 z j ' l n y j ' \partial y j = - z j y j 当 j' \neq j 时 ， 该 项 对 于 y j 的 微 分 为 0 。 因 此 只 需 要 求 j' = j 项 时 的 导 数 此 时 有 ： \partial z j l n y j \partial y j = z j y j

$\begin{aligned} \frac{\partial\mathcal{L}(x,z)}{\partial y_j} &= \frac{\partial -\sum^{K}_{j'=1}z_{j'}lny_{j'}}{\partial y_j} \\ &=-\frac{z_j }{y_j} & 当j' \neq j时，该项对于y_j的微分为0。&\\ &&因此只需要求j'=j项时的导数 \\ && 此时有： \frac{\partial z_{j} ln y_{j}}{\partial y_j}=\frac{z_{j}}{y_{j}} \end{aligned}$

Softmax函数的导数：

首先准备一下在计算时会反复用到的部分：

\partial 1 \sum K j ' = 1 e a j ' \partial a j = \partial 1 \sum K j ' = 1 e a j ' \partial \sum K j = 1 e a j ' \partial \sum K j ' = 1 e a j ' \partial a j = - 1 ( \sum K j ' = 1 e a j ' ) 2 \partial \sum K j = 1 e a j ' \partial a j = - 1 ( \sum K j ' = 1 e a j ' ) 2 e a j 根 据 链 式 法 则 ， 把 复 杂 的 函 数 分 解 成 复 合 函 数 ， 然 后 可 以 对 其 分 别 求 导 数 \sum j' = 1 K e a j' 可 以 分 解 为 \sum j' \neq j e a j' + e a j 其 对 e a j 的 导 数 就 是 e a j

$\begin{aligned} \frac{\partial{\frac{1}{\sum^{K}_{j'=1}e^{a_{j'}}}}}{\partial{a_j}}&=\frac{\partial{\frac{1}{\sum^{K}_{j'=1}e^{a_{j'}}}}}{\partial \sum^{K}_{j=1}e^{a_{j'}}}\frac{\partial \sum^{K}_{j'=1}e^{a_{j'}}}{\partial a^{j}} && 根据链式法则，把复杂的函数分解成复合函数，\\ &&&然后可以对其分别求导数\\ &=-\frac{1}{{(\sum^{K}_{j'=1}e^{a_{j'}})}^2}\frac{\partial \sum^{K}_{j=1}e^{a_{j'}}}{\partial a^{j}} && \sum^{K}_{j'=1}e^{a_{j'}} 可以分解为 \sum_{j' \neq j}e^{a_{j'}} + e^{a_j}\\ &&&其对e^{a_j}的导数就是e^{a_j} \\ &=-\frac{1}{{(\sum^{K}_{j'=1}e^{a_{j'}})}^2}e^{a_j} \end{aligned}$
在求导数时，根据i和j是否相等分开进行讨论：
当i=j时，求导数公式如下：

\partial e a i \sum K j = 1 e a j \partial a i = \partial e a i \partial e a i 1 \sum K j ' = 1 e a j ' + e a i \partial 1 \sum K j ' = 1 e a j ' \partial a i = e a i 1 \sum K j ' = 1 e a j ' + e a i (- 1 ( \sum K j ' = 1 e a j ' ) 2 e a i) = e a i \sum K j ' = 1 e a j ' (1 - e a i \sum K j ' = 1) = y i (1 - y i) 根 据 (u v)' = u' v + u v' ， 把 函 数 拆 成 两 个 部 分 分 别 求 导 数 由 s o f t m a x 定 义 ， y i = e a i \sum K j ' = 1 e a j '

$\begin{aligned} \frac{\partial{\frac{e^{a_i}}{\sum^{K}_{j=1}e^{a_j}}}}{\partial a_{i}} &=\frac{\partial e^{a_i}}{\partial e^{a_i}}\frac{1}{\sum^{K}_{j'=1}e^{a_{j'}}} + e^{a_{i}}\frac{\partial {\frac{1}{\sum^{K}_{j'=1}e^{a_{j'}}}}}{\partial a^{i}} && 根据(uv)'=u'v + uv'，\\ &&&把函数拆成两个部分分别求导数\\ &=e^{a_i}\frac{1}{\sum^{K}_{j'=1}e^{a_{j'}}} + e^{a_i}(-\frac{1}{{(\sum^{K}_{j'=1}e^{a_{j'}})}^2}e^{a_i}) \\ &=\frac{e^{a_i}}{\sum^{K}_{j'=1}e^{a_{j'}}}(1-\frac{e^{a_i}}{\sum^{K}_{j'=1}}) && 由softmax定义，y_i= \frac{e^{a_i}}{\sum^{K}_{j'=1}e^{a_{j'}}}\\ &=y_i(1-y_i) \end{aligned}$

i≠j $i\neq j$ 的求导数公式如下:

\partial e a j \sum K j ' = 1 e a j ' \partial a i = e a j \partial 1 \sum K j ' = 1 e a j ' \partial e a i = e a j (- 1 ( \sum K j ' = 1 e a j ' ) 2 e a i) = e a j \sum K j = 1 e a j ' e a i \sum K j ' = 1 e a j ' = - y j y i e a j 不 受 e a i 影 响 ， 是 个 常 数

$\begin{aligned} \frac{\partial{\frac{e^{a_j}}{\sum^{K}_{j'=1}e^{a_{j'}}}}}{\partial a_{i}} &= e^{a_j}\frac{\partial{\frac{1}{\sum^{K}_{j'=1}e^{a_{j'}}}}}{\partial {e_a{i}}} && e^{a_j} 不受e^{a_i}影响，是个常数\\ &=e^{a_j}(-\frac{1}{{(\sum^{K}_{j'=1}e^{a_{j'}})}^2}e^{a_i}) \\ &=\frac{e^{a_j}}{\sum^{K}_{j=1}e^{a_{j'}}}\frac{e^{a_i}}{\sum^{K}_{j'=1}e^{a_{j'}}}\\ &=-y_{j}y_{i} \end{aligned}$

输出层的梯度 $\delta_{i}$ 的推导

$\mathcal {L}$ 受所有的输出数据 $y_j$ 影响，而任意一个输入数据 $a_i$ 会影响到所有的输出数据 $y_j$ ,因此在 $\mathcal {L}$ 对任意一个 $a_i$ 求导数时，要把所有的 $y_j$ 的导数都传递给 $a_i$ ，并把它们累加起来。
这里写图片描述

δ i = \partial L \partial a i = \partial L \partial y 1 \partial y 1 \partial a i + \partial L \partial y 2 \partial y 2 \partial a i + \dots + \partial L \partial y j \partial y j \partial a i + \dots + \partial L \partial y K \partial y K \partial a i = \sum j = 1 K \partial L \partial y j \partial y j \partial a i = \sum j \neq i K \partial L \partial y j \partial y j \partial a i + \partial L \partial y i \partial y i \partial a i 根 据 i 和 j 是 否 相 等 分 开 进 行 讨 论

$\begin{aligned} \delta_{i}&=\frac{\partial \mathcal{L}}{\partial a_i}\\ &=\frac{\partial \mathcal{L}}{\partial y_1}\frac{\partial y_1}{\partial a_i} + \frac{\partial \mathcal{L}}{\partial y_2}\frac{\partial y_2}{\partial a_i}+\dots+\frac{\partial \mathcal{L}}{\partial y_j}\frac{\partial y_j}{\partial a_i}+\dots+\frac{\partial \mathcal{L}}{\partial y_K}\frac{\partial y_K}{\partial a_i}\\ &=\sum^{K}_{j=1}\frac{\partial \mathcal{L}}{\partial y_j}\frac{\partial y_j}{\partial a_i}\\ &=\sum^{K}_{j \neq i}\frac{\partial \mathcal{L}}{\partial y_j}\frac{\partial y_j}{\partial a_i} + \frac{\partial \mathcal{L}}{\partial y_i}\frac{\partial y_i}{\partial a_i} && 根据i和j是否相等分开进行讨论 \end{aligned}$

当 $i\neq j$ 时：

\sum j \neq i K \partial L \partial y j \partial y j \partial a i = \sum j \neq i K [- z j y j (- y i y j)]

$\begin{aligned} \sum^{K}_{j \neq i}\frac{\partial \mathcal{L}}{\partial y_j}\frac{\partial y_j}{\partial a_i} &= \sum^{K}_{j \neq i}[-\frac{z_j}{y_j}(-y_i y_j)] \end{aligned}$

当i=j时：

\partial L \partial y i \partial y i \partial a i = - z i y i [y i (1 - y i)]

$\begin{aligned} \frac{\partial \mathcal{L}}{\partial y_i}\frac{\partial y_i}{\partial a_i} &= -\frac{z_i}{y_i}[y_i(1-y_i)] \end{aligned}$

把这两个部分加起来：

δ i = \partial L \partial a i = \sum j \neq i K \partial L \partial y j \partial y j \partial a i + \partial L \partial y i \partial y i \partial a i = \sum j \neq i K [- z j y j (- y i y j)] + {- z i y i [y i (1 - y i)]} = y i {\sum j \neq i K [- z j y j (- y j)] - z i y i (1 - y i)} = y i {\sum j \neq i K z j - z i y i + z i} = y i （ 1 - z i y i ） = y i - z i 根 据 i 和 j 是 否 相 等 分 开 进 行 讨 论 把 上 面 两 个 部 分 代 入 提 取 公 因 数 y i 由 于 z j 是 个 概 率 函 数 ， 因 此 所 有 的 z j 的 和 是 1 。 \sum j \neq i K z j + z i = 1

$\begin{aligned} \delta_{i}&=\frac{\partial \mathcal{L}}{\partial a_i}\\ &=\sum^{K}_{j \neq i}\frac{\partial \mathcal{L}}{\partial y_j}\frac{\partial y_j}{\partial a_i} + \frac{\partial \mathcal{L}}{\partial y_i}\frac{\partial y_i}{\partial a_i} && 根据i和j是否相等分开进行讨论 \\ &=\sum^{K}_{j \neq i}[-\frac{z_j}{y_j}(-y_i y_j)] + \{ -\frac{z_i}{y_i}[y_i(1-y_i)]\} &&把上面两个部分代入 \\ &=y_{i}\{ \sum^{K}_{j \neq i}[-\frac{z_j}{y_j}(- y_j)] - \frac{z_i}{y_i}(1-y_i)\} && 提取公因数 y_i \\ &=y_{i}\{ \sum^{K}_{j \neq i}{z_j} - \frac{z_i}{y_i}+z_i\} \\ &=y_{i}（1-\frac{z_i}{y_i}）&& 由于z_j是个概率函数，因此所有的z_j的和是1。\\ &&&\sum^{K}_{j \neq i}{z_j} +z_i = 1\\ &=y_i-z_i \end{aligned}$