熵
–
信息熵 Entropy
如果一个随机变量的取值范围为X={x1,x2,...,xn},对应的概率为p(X=xi)(i=1,2,..,n)则随机变量X的信息熵为
H(X)=−∑x∈Xp(x)logp(x)
联合熵 Joint Entropy
如果X,Y是一对离散型随机变量X,Y∼p(x,y), X,Y的联合熵H(X,Y)为:
H(X,Y)=∑x∈X∑y∈Y−p(x,y)logp(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量。
p(xi,yi)为X=xi,Y=yi时的概率。
条件熵 Conditional Entropy
给定随机变量X的情况下,随机变量
H(Y|X)=∑x∈Xp(x)H(Y|X=x) =∑x∈Xp(x)[−∑y∈Yp(y|x)logp(y|x)] =−∑x∈X∑y∈Yp(x)p(y|x)log(y|x) =−∑x∈X∑y∈Yp(x,y)log(y|x)
条件熵也可以写成:
H(Y|X)=H(X,Y)−H(X)
推导如下:
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y) =−∑x∈X∑y∈Yp(x,y)log[p(x)p(y|x)] =−∑x∈X∑y∈Yp(x,y)[logp(x)+logp(y|x)] =−∑x∈X∑y∈Y(p(x,y)logp(x)+p(x,y)logp(y|x)) =−∑x∈X∑y∈Yp(x,y)logp(x)−∑x∈X∑y∈Yp(x,y)logp(y|x) =−∑x∈X∑y∈Yp(x,y)logp(x)+H(Y|X) =−∑x∈Xlogp(x)∑y∈Yp(x,y)+H(Y|X) =−∑x∈Xlogp(x)p(x)+H(Y|X) =H(x)+H(Y|X)
互信息 Mutual Information
互信息(Mutual Information)度量两个事件集合之间的相关性(mutual dependence)
针对两个随机变量X,Y,假如其随机概率分别为p(x),p(y),其联合概率分布p(x,y),则X,Y的互信息I(X;Y)定义如下:
I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)
假如随机变量X,
log(p(x,y)p(x)p(y))=log1=0
互信息也可以等价表示为:
I(X;Y)=H(X)−H(X|Y) =H(Y)−H(Y|X) =H(X)+X(Y)−H(X,Y)
证明如下:
I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y) =∑x∈X∑y∈Y(p(x,y)logp(x,y)p(x)−p(x,y)p(y)) =∑x∈X∑y∈Yp(x,y)logp(y|x)−∑y∈Ylogp(y)∑x∈Xp(x,y) =∑x∈X∑y∈Yp(x)p(y|x)logp(y|x)−∑y∈Ylogp(y)p(y) =∑x∈Xp(x)∑y∈Yp(y|x)logp(y|x)−H(Y) =−H(Y|X)+H(Y) =H(Y)–H(Y|X)
KL散度 Relative Entropy
设p(x)和q(x)是X取值的两个概率分布,则
可以把 Kullback-Leibler 散度看做两个分布 p(x) 和 q(x) 之间不相似程度的度量。相对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。
互信息也可以表示为两个随机变量的边缘分布 X 和
I(X;Y)=DKL(p(x,y)||p(x)p(y))
需指出相对熵是不对称的,为此詹森和香农提出一种新的相对熵的计算方法,将上面的不等式两边取平均,即
JS(p||q)=12[DKL(p||q)+DKL(q||p)]