信息消除不确定性,不确定性由熵描述
随机变量的熵:
设XXX为随机变量,其分布为P(X)P(X)P(X)
则XXX的熵为:
H(X)=−∑x∈XP(x)log2P(x)H(X)=-\sum_{x\in X}P(x)\log_{2}{P(x)}H(X)=−x∈X∑P(x)log2P(x)
随机变量的条件熵:
已知随机变量X,YX,YX,Y,联合分布P(X,Y)P(X,Y)P(X,Y),条件分布P(X∣Y)P(X|Y)P(X∣Y)
则在YYY的条件下XXX的条件熵为:
H(X∣Y)=−∑x∈X,y∈YP(x,y)log2P(x∣y)H(X|Y)=-\sum_{x\in X,y\in Y}P(x,y)\log_{2}{P(x|y)}H(X∣Y)=−x∈X,y∈Y∑P(x,y)log2P(x∣y)
可证明H(X)≥H(X∣Y)H(X)≥H(X|Y)H(X)≥H(X∣Y)
互信息:
假定两个随机事件XXX,YYY,他们的互信息定义为:
I(X;Y)=∑x∈X,y∈YP(x,y)log2P(x,y)P(x)P(y)I(X;Y)=\sum _{x\in X,y\in Y}P(x,y)\log_{2}\frac{P(x,y)}{P(x)P(y)}I(X;Y)=x∈X,y∈Y∑P(x,y)log2P(x)P(y)P(x,y)
互信息描述了两个随机事件的相关性
实际上,互信息由
I(X;Y)=H(X)−H(X∣Y)I(X;Y)=H(X)-H(X|Y)I(X;Y)=H(X)−H(X∣Y)
导出。
库尔贝克——莱伯勒相对熵:
衡量两个取值为正数的函数的相似性
KL(f(x)∣∣g(x))=∑x∈Xf(x)log2f(x)g(x)KL(f(x)||g(x))=\sum_{x\in X}f(x)\log_2\frac{f(x)}{g(x)}KL(f(x)∣∣g(x))=x∈X∑f(x)log2g(x)f(x)
- 两个完全相同的函数,其相对熵为0
- 相对熵越大,两个函数差异越大
- 对于概率分布或者概率密度函数,如果取值均大于0,相对熵可以度量两个随机分布的差异性
詹森——香农相对熵:
注意到库尔贝克——莱伯勒相对熵是不对称的,进行对称平均对其修正,得到:
JS(f(x)∣∣g(x))=12[KL(f(x)∣∣g(x))+KL(g(x)∣∣f(x))]JS(f(x)||g(x))=\frac{1}{2}[KL(f(x)||g(x))+KL(g(x)||f(x))]JS(f(x)∣∣g(x))=21[KL(f(x)∣∣g(x))+KL(g(x)∣∣f(x))]
6万+

被折叠的 条评论
为什么被折叠?



