熵(Entropy)
熵是随机变量的不确定性的度量。设 X X 是一个离散的随机变量,其取值空间为 X X ,概率密度函数p(x)=P(X=x),x∈Xp(x)=P(X=x),x∈X,则离散型随机变量 X X 的信息熵 H(X) H(X) 为,
H(X)=−∑x∈Xp(x)logp(x), 对数log所用的底一般为2,因此其单位为比特(bit)H(X)=−∑x∈Xp(x)logp(x), 对数log所用的底一般为2,因此其单位为比特(bit)
我们知道,如果X∼p(x)X∼p(x),则随机变量 Y=g(X) Y=g(X) 的数学期望 EY EY 为,
EY=Epg(X)=∑x∈Xg(x)p(x),其中Epg(X)表示函数g(X)关于概率分布p(x)的期望EY=Epg(X)=∑x∈Xg(x)p(x),其中Epg(X)表示函数g(X)关于概率分布p(x)的期望
特别地,当 g(X)=−logp(X) g(X)=−logp(X) 时,因此随机变量 X X 的信息熵可以解释为H(X)=Elog1p(X)H(X)=Elog1p(X)
另外我们知道,一条信息的信息量与其不确定性(概率)有直接的关系,由此我们可以得到,随机变量 X=x X=x 的信息量为 log1p(X=x) log1p(X=x),所以随机变量 X X 的信息熵 H(X) H(X) 还可以解释为随机变量 X X 的信息量的期望(平均信息量)
联合熵(Joint entropy)与条件熵(Conditional entropy)
如果随机变量 (X,Y)∼p(x,y) (X,Y)∼p(x,y) ,那么其联合熵 H(X,Y) H(X,Y) 为,
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=−Elogp(X,Y)H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=−Elogp(X,Y)
一样地,其条件熵 H(Y|X) H(Y|X) 为,
H(Y|X)=∑x∈Xp(x)H(Y|X=x)=−∑x∈Xp(x)∑y∈Yp(y|x)logp(y|x)=−∑x∈X∑y∈Yp(x,y)logp(y|x)=−Elogp(Y|X)H(Y|X)=∑x∈Xp(x)H(Y|X=x)=−∑x∈Xp(x)∑y∈Yp(y|x)logp(y|x)=−∑x∈X∑y∈Yp(x,y)logp(y|x)=−Elogp(Y|X)
另外,H(X,Y)=H(X)+H(Y|X)H(X,Y)=H(X)+H(Y|X),证明如下,
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=−∑x∈X∑y∈Yp(x,y)logp(x)p(y|x)=−∑x∈X∑y∈Yp(x,y)logp(x)−∑x∈X∑y∈Yp(x,y)logp(y|x)=−∑x∈Xp(x)logp(x)+H(Y|X)=H(X)+H(Y|X)H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=−∑x∈X∑y∈Yp(x,y)logp(x)p(y|x)=−∑x∈X∑y∈Yp(x,y)logp(x)−∑x∈X∑y∈Yp(x,y)logp(y|x)=−∑x∈Xp(x)logp(x)+H(Y|X)=H(X)+H(Y|X)
其中,
∑y∈Yp(x,y)=p(x)为离散型随机变量的联合分布变为边缘分布∑y∈Yp(x,y)=p(x)为离散型随机变量的联合分布变为边缘分布
相对熵是两个随机分布之间距离的度量,相对熵 D(p||q) D(p||q) 度量当真实分布为 p(x) p(x) 而假定分布为 q(x) q(x) 时的差异性
D(p||q)=∑x∈Xp(x)logp(x)q(x)D(p||q)=∑x∈Xp(x)logp(x)q(x)
互信息(信息增益)是一个随机变量包含另一个随机变量信息量的度量,也可以说是在给定一个随机变量的条件下,原随机变量的不确定性的减少量,
I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)=D(p(x,y)||p(x)p(y))即互信息I(X;Y)为联合分布p(x,y)和乘积分布p(x)p(y)之间的相对熵I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)=D(p(x,y)||p(x)p(y))即互信息I(X;Y)为联合分布p(x,y)和乘积分布p(x)p(y)之间的相对熵
另外,熵与互信息的关系,
I(X;Y)=H(Y)−H(Y|X)=H(X)−H(X|Y)I(X;Y)=H(Y)−H(Y|X)=H(X)−H(X|Y)
,证明如下,
I(X;Y)=∑x∈X,y∈Yp(x,y)logp(x,y)p(x)p(y)=∑x∈X,y∈Yp(x,y)logp(x|y)p(x)=−∑x∈X,y∈Yp(x,y)logp(x)−(−∑x∈X,y∈Yp(x,y)logp(x|y))=H(X)−H(X|Y)I(X;Y)=∑x∈X,y∈Yp(x,y)logp(x,y)p(x)p(y)=∑x∈X,y∈Yp(x,y)logp(x|y)p(x)=−∑x∈X,y∈Yp(x,y)logp(x)−(−∑x∈X,y∈Yp(x,y)logp(x|y))=H(X)−H(X|Y)