香农信息理论的构建基石
1. 信息熵示例与信息损失
首先来看一个信息熵的示例。假设存在这样的概率情况,$\hat{p}(-1) = \frac{43}{128}$ 且 $\hat{p}(1) = \frac{85}{128}$,由此可以计算出两个熵值:
- $H(X) = \frac{163}{64} \approx 1.984$ 比特
- $H(F(X)) = -\frac{43}{128}\log_2(\frac{43}{128}) - \frac{85}{128}\log_2(\frac{85}{128}) \approx 0.921$ 比特
进而得到 $\Delta H \approx -1.063$ 比特。这表明经过操作 $F$ 后,原始信息内容大约有一半得以保留。此示例说明,对于给定类型的消息恶化(即给定操作 $F$,该操作可能包含概率元素),信息损失取决于各个消息的不同发生概率。
2. 联合熵与条件熵
2.1 定义
联合熵
一对离散随机变量 $(X, Y)$ 的联合熵 $H(X, Y)$(以比特为单位)定义如下:
$H(X, Y) = -\sum_{(x,y) \in A} p(x, y)\log_2 p(x, y)$
其中 $A = A_X \otimes A_Y$。联合熵表示来自集合 $A$ 且具有指定发生概率 $p(x, y)$ 的消息 $(x, y)$ 的平均信息内容。并且有 $0 \leq H(X, Y) \leq \log_2|A|$,当 $(x, y)$ 为常数时,联合熵为 0;当 $p(x, y) = |A|^{-1}$ 时,联合熵为 $\
超级会员免费看
订阅专栏 解锁全文
714

被折叠的 条评论
为什么被折叠?



