信息熵

最新推荐文章于 2025-05-12 16:13:13 发布

lcg_magic

最新推荐文章于 2025-05-12 16:13:13 发布

阅读量1.8k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Machine Learning 文章标签：信息熵机器学习

本文链接：https://blog.youkuaiyun.com/PursueLuo/article/details/95874257

Machine Learning 专栏收录该内容

15 篇文章

订阅专栏

本文介绍了熵和信息熵的概念。熵是热力学中表征物质状态的参量，信息熵由香农提出，解决了信息的度量问题。文中给出信息熵的定义、公式，分析了随机变量取值与信息熵的关系，还通过例子说明不确定性与熵值的关联，并对连续性随机变量的信息熵公式及相关证明进行阐述。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 熵

熵[1]，热力学中表征物质状态的参量之一，用符号 $S$ 表示，其物理意义是体系混乱程度的度量。

2. 信息熵

信息量的多少或者大小，该如何描述呢？直到1948年，香农（Shannon）提出了“信息熵[2]”的概念，解决了信息的度量问题。

定义
设 $X$ 是一个随机变量， $p (x)$ 是 $x$ 的概率，且 $\in X$ ，则 $X$ 的信息熵为：

$\sum_{x \in X} p(x) \log p(x) \tag{1}$

有时也将(1)写作：

$\sum_{i=1}^{n} p(x_i) \log p(x_i) \tag{2}$

规定：

$\log 0 = 0$ 。

并且有

$\leq H(X) \leq \log n$ ， $n$ 是取值的种类数。

信息熵的单位：如果以2为底，则熵的单位是比特（bit）；如果以 $e$ 为底，则熵的单位是纳特（nat）；还有一些其他的单位可以通过相互转换得到。

由公式(2)可得，随机变量的取值个数越多，状态数也就越多，信息熵也就越大，混乱程度也就越大。
当随机分布为均匀分布时，熵最大。

熵(entropy)是度量信息不确定性的值。
举个例子，预测明天的天气。
如果100%能确定明天一定是晴天，那么熵就是 $H(A)=-1*\log 1=0$
也就是说不确定为0。
如果说明天有50%的概率晴天，50%的概率下雨，那么熵就是 $H(A)=-(\frac{1}{2}* \log \frac{1}{2} + \frac{1}{2} * \log \frac{1}{2})=-(-\frac{1}{2}-\frac{1}{2})=1$ 可以说不确定性为1。
而如果明天有25%概率晴天，25%概率下雨，25%概率阴天，25%概率下雪，那么熵就是 $H(A)=-4*\frac{1}{4}*\log \frac{1}{4}=-4*(-\frac{1}{2})=2$
也就是说，随着不确定性的增加，熵值也在增加。

熵(entropy)是表示系统所包含的信息量。
举个例子，如 “ $a a B a a a V a a a a a$ ” 这段字母，信息熵
$H(A)=-\frac{5}{6} \ast \log \frac{5}{6}-2 \ast \frac{1}{12} \ast \log \frac{1}{12}=0.817$
而 “ $a b B c d e V f h g i m$ ” 这段子母，信息熵
$\ast \frac{1}{12} \ast \log \frac{1}{12}=3.585$
显然，第二段字母包含的信息量更大。

对于连续性随机变量，信息熵的公式变为积分公式，

$E_{x \sim p(x)} [- \log p(x)] = - \int p(x) \log p(x) dx.$

证明 $\leq H(X) \leq \log n$

利用拉格朗日乘子法证明：
因为
$\dots + p(n) = 1$
所以有，
目标函数：
$\dots, p(n)) = -(p(1) \log p(1) + p(2) \log p(2) + \dots + p(n) \log p(n))$
约束条件：
$\dots, p(n), \lambda) = p(1) + p(2) + \dots + p(n) - 1 = 0$

1、定义拉格朗日函数：

$\dots, p(n), \lambda) = - (p(1) \log p(1) + p(2) \log p(2) + \dots + p(n) \log p(n) + \lambda (p(1) + p(2) + \dots + p(n) - 1))$

2、 $\dots, p(n), \lambda)$ 分别对 $p (1)$ ， $p (2)$ ， $\dots$ ， $p (n)$ ， $\lambda$ 求偏导数，令偏导数为0：

$\begin{aligned} \lambda - \log p(1) - 1 & = 0 \\ \lambda - \log p(2) - 1 & = 0 \\ \dots \\ \lambda - \log p(n) - 1 & = 0 \\ p(1) + p(2) + \dots + p(n) - 1 & = 0 \end{aligned}$

3、求出 $p (1)$ ， $p (2)$ ， $\dots$ ， $p (n)$ 的值：

解方程得，

$\dots = p(n) = \frac{1}{n}$

代入 $\dots, p(n))$ 中，得到目标函数的极值为

$\dots, p(n)) = f(\frac{1}{n}, \frac{1}{n}, \dots, \frac{1}{n}) = - (\frac{1}{n} \log \frac{1}{n} + \frac{1}{n} \log \frac{1}{n} + \dots + \frac{1}{n} \log \frac{1}{n}) = - n \frac{1}{n} \log \frac{1}{n} = - \log \frac{1}{n} = \log n$