离散信源的信息度量是信息论中的核心内容,主要包括熵、条件熵、联合熵(共熵)和互信息量。这些概念用于描述随机变量的不确定性以及变量之间的信息关系。
-
熵(Entropy)
熵是衡量一个离散随机变量不确定性的度量。对于离散信源 $ X $,其概率分布为 $ P(x) $,则熵定义为:H(X)=−∑x∈XP(x)log2P(x) H(X) = -\sum_{x \in \mathcal{X}} P(x) \log_2 P(x) H(X)=−x∈X∑P(x)log2P(x)
单位为比特(bit)。熵越大,表示信源的不确定性越高。
-
联合熵(Joint Entropy, 共熵)
对于两个离散随机变量 $ X $ 和 $ Y $,它们的联合熵表示两个变量整体的不确定性:H(X,Y)=−∑x∈X∑y∈YP(x,y)log2P(x,y) H(X,Y) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} P(x,y) \log_2 P(x,y) H(X,Y)=−x∈X∑y∈Y∑P(x,y)log2P(x,y)
联合熵满足:$ H(X,Y) \leq H(X) + H(Y) $,当且仅当 $ X $ 与 $ Y $ 独立时取等号。
-
条件熵(Conditional Entropy)
条件熵表示在已知一个随机变量的前提下,另一个变量仍具有的不确定性:H(Y∣X)=∑x∈XP(x)H(Y∣X=x)=−∑x,yP(x,y)log2P(y∣x) H(Y|X) = \sum_{x \in \mathcal{X}} P(x) H(Y|X=x) = -\sum_{x,y} P(x,y) \log_2 P(y|x) H(Y∣X)=x∈X∑P(x)H(Y∣X=x)=−x,y∑P(x,y)log2P(y∣x)
且有关系:
H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y) H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y) -
互信息量(Mutual Information)
互信息量衡量两个随机变量之间共享的信息量,即一个变量能提供关于另一个变量的信息多少:I(X;Y)=∑x,yP(x,y)log2P(x,y)P(x)P(y) I(X;Y) = \sum_{x,y} P(x,y) \log_2 \frac{P(x,y)}{P(x)P(y)} I(X;Y)=x,y∑P(x,y)log2P(x)P(y)P(x,y)
互信息与熵的关系为:
I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=H(X)+H(Y)−H(X,Y) I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X,Y) I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=H(X)+H(Y)−H(X,Y)当 $ X $ 与 $ Y $ 独立时,$ I(X;Y) = 0 $;若完全相关,则互信息等于各自的熵。
熵、联合熵和条件熵之间有以下几个基本且重要的关系式,它们构成了信息论中分析多变量系统的基础:
-
联合熵等于熵加条件熵
对于两个离散随机变量 $ X $ 和 $ Y $,有:
H(X,Y)=H(X)+H(Y∣X) H(X,Y) = H(X) + H(Y|X) H(X,Y)=H(X)+H(Y∣X)
同样也成立:
H(X,Y)=H(Y)+H(X∣Y) H(X,Y) = H(Y) + H(X|Y) H(X,Y)=H(Y)+H(X∣Y)
这表示两个变量的总体不确定性等于一个变量的不确定性加上在已知该变量时另一个变量的剩余不确定性。 -
条件熵小于等于无条件熵
H(Y∣X)≤H(Y) H(Y|X) \leq H(Y) H(Y∣X)≤H(Y)
当且仅当 $ X $ 与 $ Y $ 独立时取等号。这说明知道另一个变量的信息不会增加原变量的不确定性(通常会减少)。 -
联合熵的上界(独立情形)
H(X,Y)≤H(X)+H(Y) H(X,Y) \leq H(X) + H(Y) H(X,Y)≤H(X)+H(Y)
等号成立当且仅当 $ X $ 与 $ Y $ 统计独立。 -
对称性关系
条件熵一般不具有对称性(即 $ H(X|Y) \ne H(Y|X) $),但通过联合熵可建立联系:
H(X∣Y)=H(X,Y)−H(Y),H(Y∣X)=H(X,Y)−H(X) H(X|Y) = H(X,Y) - H(Y),\quad H(Y|X) = H(X,Y) - H(X) H(X∣Y)=H(X,Y)−H(Y),H(Y∣X)=H(X,Y)−H(X) -
链式法则(Chain Rule)
对多个随机变量 $ X_1, X_2, \dots, X_n $,联合熵可以展开为:
H(X1,X2,…,Xn)=∑i=1nH(Xi∣Xi−1,…,X1) H(X_1,X_2,\dots,X_n) = \sum_{i=1}^n H(X_i | X_{i-1},\dots,X_1) H(X1,X2,…,Xn)=i=1∑nH(Xi∣Xi−1,…,X1)
这是上述两变量关系的推广。



被折叠的 条评论
为什么被折叠?



