熵，交叉熵，相对熵（KL散度）

最新推荐文章于 2024-09-12 17:11:30 发布

原创最新推荐文章于 2024-09-12 17:11:30 发布 · 205 阅读

1 ·

CC 4.0 BY-SA版权

tensorflow 专栏收录该内容

7 篇文章

订阅专栏

本文深入浅出地介绍了信息论的基本概念，探讨了信息的不确定性与信息量的度量，详细阐述了熵作为信息量期望值的本质，以及交叉熵、相对熵（KL散度）在衡量概率分布差异中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：https://blog.youkuaiyun.com/zhuiyuanzhongjia/article/details/80576165

https://wk.baidu.com/view/e93db92b25c52cc58bd6be87/

一、什么是信息？

1. 香农对信息的解释：信息是事物运动状态或存在方式的不确定性的描述。

2. 何为信息？什么能提供信息？我将你原来不知道的结果告诉你，就是提供了信息。

3. 如何衡量信息量的大小？事件发生的概率越小，此事件含有的信息量就越大。

我向你提供的信息量大小，就是你事先不知道结果的程度！也即是信息的不确定度。如果你事先全知道了，说明我提供的信息量等于0；如果你事先一无所知，说明我提供的信息量最多。

不知道意味着在我告诉你之前你只能进行猜测，猜测就是按照每个可能结果的出现概率进行猜测！因此你只知道这个事件的每个结果的发生概率！所以，我提供的信息量就是由你事先知道的每个可能结果的发生概率(即随机事件的概率分布)决定。

二、熵的本质是香农信息量（-log P）的期望。

现有关于样本集的2个概率分布p和q，其中p为真实分布，q非真实分布。按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为：H(p)= $-\sum_{i}p(i)*\log p(i)$ 。如果使用错误分布q来表示来自真实分布p的平均编码长度，则应该是：H(p,q)= $-\sum_{i}p(i)*\log q(i)$ 。因为用q来编码的样本来自分布p，所以期望H(p,q)中概率是p(i)。H(p,q)我们称之为“交叉熵”。

比如含有4个字母(A,B,C,D)的数据集中，真实分布p=(1/2, 1/2, 0, 0)，即A和B出现的概率均为1/2，C和D出现的概率都为0。计算H(p)为1，即只需要1位编码即可识别A和B。如果使用分布Q=(1/4, 1/4, 1/4, 1/4)来编码则得到H(p,q)=2，即需要2位编码来识别A和B(当然还有C和D，尽管C和D并不会出现，因为真实分布p中C和D出现的概率为0，这里就钦定概率为0的事件不会发生啦)。

可以看到上例中根据非真实分布q得到的平均编码长度H(p,q)大于根据真实分布p得到的平均编码长度H(p)。事实上，根据Gibbs' inequality可知，H(p,q)>=H(p)恒成立，当q为真实分布p时取等号。我们将由q得到的平均编码长度比由p得到的平均编码长度多出的bit数称为“相对熵”：D(p||q)=H(p,q)-H(p)= $-\sum_{i}p(i)*\log \frac{q(i) }{p(i)}$ ，其又被称为KL散度(Kullback–Leibler divergence，KLD) Kullback–Leibler divergence。它表示2个函数或概率分布的差异性：差异越大则相对熵越大，差异越小则相对熵越小，特别地，若2者相同则熵为0。注意，KL散度的非对称性。