信息论基础:熵、KL散度与互信息
1. 联合熵
1.1 联合分布与联合熵计算
给定联合分布:
| | Y = 0 | Y = 1 |
| — | — | — |
| X = 0 | 1/8 | 3/8 |
| X = 1 | 3/8 | 1/8 |
联合熵的计算公式为:
$H (X, Y ) = - \left[\frac{1}{8} \log_2 \frac{1}{8} + \frac{3}{8} \log_2 \frac{3}{8} + \frac{3}{8} \log_2 \frac{3}{8} + \frac{1}{8} \log_2 \frac{1}{8} \right] = 1.81$ 比特
1.2 联合熵的上下界
- 上界 :当 $X$ 和 $Y$ 相互独立时,$H (X, Y ) = H (X) + H (Y )$。一般情况下,$H (X, Y ) \leq H (X) + H (Y )$。这是因为当变量之间存在某种关联时,系统的“自由度”会降低,从而导致整体熵减少。
- 下界 :若 $Y$ 是 $X$ 的确定性函数,则 $H (X, Y ) = H (X)$。所以,$H (X, Y ) \geq \max{H (X), H (Y )} \geq 0$。直观地说,将变量组合在一起不会使熵降低,要减少不确定性需要观察一些数据。
联合熵的定义可以很自然地从两个变量扩展到 $n$ 个变量。
超级会员免费看
订阅专栏 解锁全文
734

被折叠的 条评论
为什么被折叠?



