谈谈：熵、交叉熵、互信息、KL散度

最新推荐文章于 2025-08-24 02:50:24 发布

原创最新推荐文章于 2025-08-24 02:50:24 发布 · 725 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习

机器学习\深度学习理论知识专栏收录该内容

9 篇文章

订阅专栏

本文深入探讨了信息论的基本概念，如熵、联合熵、条件熵、互信息、相对熵（KL散度）、交叉熵及其在自然语言处理（NLP）领域的应用。详细解释了这些概念如何帮助理解和挖掘文本数据，包括新词发现、词汇聚类、分词、词义消歧、文本分类聚类等任务。

主要以概念介绍以及理解为主

熵

又叫做自信息。描述一个随机变量的不确定性程度（离散的）
$\sum p(x)log_2p(x),其中，0log0 = 0$
熵越大，不确定性越大，得到正确估计的可能性就越小。所以，越不确定就需要用更大的信息量来确定其值。
对于未知分布，如果只掌握部分信息，即符合这部分信息的分布可能有多个，我们认为熵值最大的概率分布最真实的反映了这个事件的分布。
即：在已知部分知识的前提下，关于未知分布最合理的的推断，应该是所有符合已知信息中，最不确定（最大随机性）的推断（熵最大的那个）。
NLP中往往是选用熵最大的模型来推断某种语言现象的可能性。
$\hat p=\argmax_{p \in C} H(p)$
熵越大，越不确定，越小，越确定。

用法：

用于新词挖掘。
比如被子，与辈子。
两个词的左熵被子更大，辈子小很多。那么，可以认为被子可以独立成词，辈子不行。

联合熵

$\sum p(x,y)log_2p(x,y)$
描述一对随机变量平均所需要的信息量
条件熵
$H(Y|X)\\ = \sum_{x \in X} p(x)H(Y|X=x) \\ = \sum_{x \in X} p(x)[- \sum_{y \in Y} p(y|x)log_2p(y|x)]\\=- \sum_{x \in X}\sum_{y \in Y} p(x,y)log_2p(y|x)$
连锁规则：
$\sum p(x,y)log_2p(x,y)\\ =- \sum p(x,y)log_2[p(x)p(y|x)]\\=H(X) + H(Y|X)$

互信息

$H (X, Y) = H (X) + H (Y ∣ X) = H (Y) + H (X ∣ Y)$
$I (X, Y) = H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X) = I (Y, X)$
互信息： $I (X, Y)$ 反映的是知道Y以后，X的不确定性的减少量。理解为：Y透露了多少X的信息。【若X,Y独立，则没减少】
互信息度量的是X,Y之间的统计相关性。
NLP中，可以度量主题类别与词汇之间的互信息大小进行特征词抽取。
互信息的应用：词汇聚类、分词、词义消歧、文本分类聚类等。

相对熵（KL散度）

衡量相同事件空间里两个概率分布相对差距的测度。

p(x)与q(x)的相对熵：
$\sum_xp(x)log\frac{p(x)}{q(x)} = E_p[log\frac{p(x)}{q(x)}]$
当 $p (x) = q (x)$ 相对熵为0，两个分布没差异
相对熵的角度看互信息：衡量联合分布与其独立性差距多大的测度
$I (X, Y) = D (p (x, y) ∣ ∣ p (x) p (y))$
注意KL散度不是对称的。
当两个分布相差比较大的时候，使用KL散度会存在一些问题。需要引入一些变体形式。
KL散度在生成模型中使用比较多。VAE之类的。
解读KL散度：从定义到优化方法
【GAN的优化】从KL和JS散度到fGAN
知乎KL散度相关总结

交叉熵

熵反应的是事情的不确定性程度。如果我们有越多的信息，那么对于这个事件熵就越小，对于试验结果就越不会意外。
交叉熵用于衡量估计模型与真实概率之间的差异情况。
对于随机变量 $X\sim p(x)$ ，我们用 $q (x)$ 近似估计 $p (x)$ 。 $X$ 与模型 $q (x)$ 的交叉熵如下

$D(p||q)\\ =- \sum_xp(x)log q(x)$

交叉熵是分类问题中十分常用的损失函数。无论是单标签分类还是多标签分类，基准的损失函数都是交叉熵。

那看到这里的疑问：
上述式子中，我应该是不知道 $p (x)$ 的真实概率分布，如果我知道的话，我何必用 $q (x)$ 来估计真实模型呢？

上述都是理想情况。实际情况中，我们有的是一堆样本 $D a t a$ ，理解成从X中抽样得到的。还有一个估计模型 $q(x,\theta)$ 。目标就是找到最优参数 $\hat \theta$ ，使得估计的分布于真实分布差距最小。
实际计算中，是根据大数定律以及相关定理的支撑下，用近似的计算方法。
通常来说，对于每个样本 $\sum ylog\hat y$