浅析交叉熵损失函数

最新推荐文章于 2025-07-28 16:46:49 发布

bineleanor

最新推荐文章于 2025-07-28 16:46:49 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：自然语言处理深度学习

本文链接：https://blog.youkuaiyun.com/z2536083458/article/details/99213557

自然语言处理同时被 2 个专栏收录

12 篇文章

订阅专栏

深度学习

5 篇文章

订阅专栏

浅析交叉熵损失函数

首先抛出交叉熵损失函数分别用于二分类和多分类的损失函数表达式子：

二分类交叉熵损失函数

$L = - [y l o g p + (1 - y) l o g (1 - p)]$

其中 $y$ 表示样本标签， $p$ 表示对应样本标签预测为正的概率
如: 当 $y = 0 时$ ， $L = - l o g p$ ,当 $y = 1$ 时， $L = - l o g (1 - p)$ .
多分类交叉熵损失函数

$-\sum_{c=1}^{M}y_clogp_c$

$p_c$ 表示标签预测为 $c$ 的概率

最大似然估计

通过最大似然估计探测一下交叉熵损失函数的本质：

最大似然估计的计算表达式为：

$\prod_{i=1}^{N}p_i^{y_i}(1-p_i)^{(1-y_i)}$

一般通过对数似然的方法对上述式子求解：
$\begin{aligned} logp(y|x) & = \sum _{i=1}^N(y_ilogp_i + (1-y_i)log(1-p_i)) \\ & = ylogp + (1-y)log(1-p) \end{aligned}$

我们的目的是使得似然函数最大，即对于负的对数似然函数最小，仔细瞅一瞅，不就是我们的交叉熵损失函数了吗？

tensorflow中关于交叉熵损失函数的计算函数：

tf.nn.softmax_cross_entropy_with_logits(labels=input_labels, logits=pred_logits)

要求输入的标签input_labels与计算出的pred_logits的维度一致；
tf.nn.sparse_softmax_cross_entropy_with_logits(labels=input_labels, logits=pred_logits)

输入的标签是具体哪个标签的值，就是不需要进行one_hot等等编码的标签。
tf.nn.softmax_cross_entropy_with_logits_v2(labels=input_labels, logits=pred_logits)

这个函数是tensorflow最新版本的计算交叉熵损失函数的函数接口，主要变化在于其对于输入标签不一定要求是保持不变的，如在对抗生成网络的训练过程中，标签可能是动态变化的，如果我们还是基于不变的标签，可以把这个函数当作跟第一个函数一样来使用。

sigmoid交叉熵损失函数

Sigmoid的概率计算公式为： $hθ(x)=11+e−θTxh_{\theta}(x) = \frac{1}{1+e^{-\theta^Tx}}$

$\begin{aligned} L(\theta) & = -[ylogp + (1-y)log(1-p)] \\ & = -\sum_i[y_ilogp_i + (1-y_i)log(1-p_i)] \\ & = -\sum_i[y_ilog\frac{1}{1+e^{-\theta^Tx_i}} + (1-y_i)log\frac{e^{-\theta^Tx_i}}{1+e^{-\theta^Tx_i}}] \\ & = -\sum_i[y_i\theta^Tx_i - y_ilog(1+e^{\theta^Tx_i}) - (1-y_i)log(1+e^{\theta^Tx_i})] \\ & = -\sum_i[y_i\theta^Tx_i - log(1+e^{\theta^Tx_i})] \end{aligned}$

利用上式子，对 $θj\theta_j$ 求导：

$\begin{aligned} \frac{\partial L}{\partial \theta_j} & = \frac{\partial (-\sum_i[y_i\theta^Tx - log(1+e^{\theta^Tx_i})])}{\partial \theta_j} \\ &= -\sum_i[y_ix_j^{(i)} + \frac{x_j^{(i)}e^{\theta^Tx_i}}{1+e^{\theta^Tx_i}}] \\ & = -\sum_i[y_i - h_{\theta}(x_i)]x_j^{(i)} \\ & = \sum_i[h_{\theta}(x_i) - y_i]x_j^{(i)} \end{aligned}$