对比交叉熵损失（Cross-Entropy Loss）和KL散度（Kullback-Leibler Divergence）

原创于 2025-06-30 11:26:33 发布 · 918 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #深度学习

Machine Learning 同时被 2 个专栏收录

11 篇文章

订阅专栏

Decision Tree

2 篇文章

订阅专栏

这是一个非常核心且经常让人混淆的问题！交叉熵损失（Cross-Entropy Loss）和KL散度（Kullback-Leibler Divergence）在形式上非常相似，而且在某些特定情况下，它们在优化目标上是等价的，但这并不意味着它们完全相同。我们来深入探讨一下。

1. 交叉熵损失 (Cross-Entropy Loss)

定义和目的：
交叉熵损失是机器学习中，特别是分类任务中最常用的一种损失函数。它衡量的是两个概率分布之间的差异。在分类任务中，这两个分布通常是：

真实标签的概率分布 §：通常是one-hot编码，表示某个样本属于某个类别的真实概率为1，其他为0。例如，对于一个猫的图片，真实标签分布可能是 [0, 1, 0] (假设第二个是猫)。
模型预测的概率分布 (q)：模型（通常是经过softmax层）输出的每个类别的概率。例如，模型预测猫的概率是0.8，狗是0.1，鸟是0.1，那么预测分布是 [0.1, 0.8, 0.1]。

公式：
对于离散概率分布 $p$ 和 $q$ ，它们的交叉熵定义为：
$-\sum_{i=1}^{N} p_i \log(q_i)$

其中：

$N$ 是类别的数量。
$p_i$ 是真实分布中第 $i$ 个类别的概率。
$q_i$ 是预测分布中第 $i$ 个类别的概率。

在分类任务中的简化：
由于在标准的分类任务中， $p$ 通常是one-hot编码，即只有一个 $p_k=1$ (真实类别)，其他 $p_i=0$ ，所以公式简化为：
$H(p,q)=−1⋅log⁡(qtrue_class)+∑i≠true_class0⋅log⁡(qi)=−log⁡(qtrue_class)H(p, q) = -1 \cdot \log(q_{true\_class}) + \sum_{i \neq true\_class} 0 \cdot \log(q_i) = -\log(q_{true\_class})$

这意味着，传统的交叉熵损失只关注模型对真实类别的预测概率。如果模型对真实类别的预测概率 $q_{true\_class}$ 越高（接近1），则 $log(q_{true\_class})$ 越小（接近0），损失越小。反之，如果 $q_{true\_class}$ 越低（接近0），则损失越大。

核心作用： 驱动模型学习，使其预测的概率分布尽可能地接近真实的（通常是one-hot的）概率分布。

2. KL散度 (Kullback-Leibler Divergence)

定义和目的：
KL散度（也称为相对熵）是信息论中的一个概念，它衡量的是一个概率分布 $q$ 相对于另一个参考概率分布 $p$ 的“差异”或“信息增益”。它量化了当我们使用一个近似分布 $q$ 来表示真实分布 $p$ 时，所损失的信息量。

公式：
对于离散概率分布 $p$ 和 $q$ ，KL散度定义为：
$DKL(P∣∣Q)=∑i=1Npilog⁡(piqi)D_{KL}(P||Q) = \sum_{i=1}^{N} p_i \log(\frac{p_i}{q_i})$

这个公式可以展开为：
$DKL(P∣∣Q)=∑i=1Npilog⁡(pi)−∑i=1Npilog⁡(qi)D_{KL}(P||Q) = \sum_{i=1}^{N} p_i \log(p_i) - \sum_{i=1}^{N} p_i \log(q_i)$

其中：

$∑i=1Npilog⁡(pi)\sum_{i=1}^{N} p_i \log(p_i)$ 是负的熵（Entropy） $H (P)$ 。熵衡量了分布 $P$ 的不确定性。
$−∑i=1Npilog⁡(qi)-\sum_{i=1}^{N} p_i \log(q_i)$ 就是交叉熵 $H (P, Q)$ 。

所以，KL散度也可以表示为：
$D_{KL}(P||Q) = H(P, Q) - H(P)$

核心特性：

非负性： $DKL(P∣∣Q)≥0D_{KL}(P||Q) \ge 0$ 。当且仅当 $P = Q$ （两个分布完全相同）时，KL散度为0。
不对称性： $DKL(P∣∣Q)≠DKL(Q∣∣P)D_{KL}(P||Q) \neq D_{KL}(Q||P)$ 。这意味着 $P$ 偏离 $Q$ 的程度，不等于 $Q$ 偏离 $P$ 的程度。因此，它不能被称为真正的“距离”度量。

核心作用： 衡量一个模型（或近似）分布与真实（或参考）分布之间的信息差异。在优化中，最小化KL散度意味着使 $q$ 尽可能地接近 $p$ 。

3. 区别与联系

特征	交叉熵损失 (Cross-Entropy Loss)	KL散度 (Kullback-Leibler Divergence)
主要目的	作为损失函数，驱动模型预测的概率分布接近真实标签（通常是one-hot）。	衡量两个概率分布之间的信息差异，不是严格意义上的距离。
输入 $p$	通常是硬标签 (Hard Labels)，即one-hot编码的真实分布。	可以是任何概率分布，包括硬标签或软标签 (Soft Labels)。
适用场景	分类任务的标准损失函数。	更通用，用于比较两个任意概率分布。例如： - 知识蒸馏 (KD) - 变分自编码器 (VAE) 中的正则项 - 强化学习中的策略优化
最小化目标	最小化 $log(q_{true\_class})$ 。	最小化 $D_{KL}(P
与熵的关系	自身就是 $H (P, Q)$ 。	是 $H (P, Q) - H (P)$ 。

关键联系：优化等价性

从公式 $D_{KL}(P||Q) = H(P, Q) - H(P)$ 可以看出，KL散度与交叉熵损失之间存在着直接关系。

当 $P$ (真实分布或教师分布) 是固定不变时：
- $H (P)$ （真实分布的熵）是一个常数。
- 在这种情况下，最小化 $D_{KL}(P||Q)$ 就等价于最小化 $H (P, Q)$ （交叉熵），因为减去一个常数不改变函数的最小值点。

举例说明：

传统分类任务（硬标签）：
- $P$ 是one-hot编码（例如 [0, 1, 0]），是固定的。
- 此时 $-\sum p_i \log(p_i) = -1 \cdot \log(1) = 0$ 。
- 所以， $D_{KL}(P||Q) = H(P, Q) - 0 = H(P, Q)$ 。
- 因此，在处理硬标签时，最小化KL散度与最小化交叉熵是完全等价的。这就是为什么在标准分类任务中，我们通常直接使用交叉熵损失。
知识蒸馏 (Knowledge Distillation - KD)（软标签）：
- $P$ 是教师模型输出的软标签（例如 [0.05, 0.9, 0.05]），它是一个完整的概率分布，包含了教师模型的“暗知识”。
- 此时 $H (P)$ 不再是0，但它仍然是固定不变的（因为教师模型已经训练好，其输出对于学生模型而言是固定的）。
- 所以，学生模型在训练时，最小化它自己的预测 $Q$ 与教师输出 $P$ 之间的 $D_{KL}(P||Q)$ ，仍然等价于最小化 $H (P, Q)$ 。
- 尽管如此，在知识蒸馏中，我们更倾向于使用 KL散度 来描述学生模型模仿教师模型软标签的过程。因为KL散度更明确地表达了“一个分布（学生）去逼近另一个分布（教师）”的含义，并且它在理论上更严谨地处理了两个完整概率分布之间的差异，而不仅仅是关注某个单一的真实类别。它鼓励学生模型不仅仅在正确类别上学对，也要在错误类别上学对教师模型犯错的“模式”（即那些微小的非零概率）。

总结

交叉熵损失 主要用于衡量模型预测与真实（通常是one-hot）标签之间的差异，是分类任务的标准损失函数。
KL散度 是一个更通用的信息论概念，衡量一个概率分布相对于另一个概率分布的信息增益或差异。
两者关系： KL散度 = 交叉熵 - 熵。当参考分布（真实标签或教师输出）固定时，最小化KL散度等价于最小化交叉熵。
选择： 在传统分类中用交叉熵更直观。在知识蒸馏等需要处理软标签或两个完整概率分布之间关系时，KL散度是更常用和更准确的描述工具，因为它明确地包含了对整个概率分布的模仿，而不仅仅是真实类别的概率。

希望这个详细的解释能帮你彻底理解它们的异同！