基本概念
熵
如果X是一个离散随机变量,取值空间为R, 其概率分布为
H(x)=−∑p(x)log2p(x)
其中约定0log0=0,对数以2为底的熵的单位为二进制位比特。
联合熵
如果X,Y是一对随机变量,X,Y ~ p(x,y), X,Y的联合熵H(X, Y)定义为:
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)
在给定随机变量X的情况下, Y的条件熵H(Y|X)定义为:
H(Y|X)=∑x∈Xp(x)H(Y|X=x)=∑x∈Xp(x)[−∑y∈YP(y|x)logp(y|x)]=−∑x∈X∑y∈Yp(x,y)logp(y|x)
互信息
根据熵的连锁规则,有
H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)
因此,
H(X)−H(X|Y)=H(Y)−H(Y|X)
这个差被称为互信息。记做I(X,Y), 它反应了在知道了Y之后,X的不确定性的减少量。展开之后,我们可以得到:
I(X,Y)=∑x,yp(x,y)logp(x,y)p(x)p(y)