【数学笔记】信息论基础

信息消除不确定性,不确定性由熵描述

随机变量的熵
XXX为随机变量,其分布为P(X)P(X)P(X)
XXX的熵为:
H(X)=−∑x∈XP(x)log⁡2P(x)H(X)=-\sum_{x\in X}P(x)\log_{2}{P(x)}H(X)=xXP(x)log2P(x)

随机变量的条件熵
已知随机变量X,YX,YX,Y,联合分布P(X,Y)P(X,Y)P(X,Y),条件分布P(X∣Y)P(X|Y)P(XY)
则在YYY的条件下XXX的条件熵为:
H(X∣Y)=−∑x∈X,y∈YP(x,y)log⁡2P(x∣y)H(X|Y)=-\sum_{x\in X,y\in Y}P(x,y)\log_{2}{P(x|y)}H(XY)=xX,yYP(x,y)log2P(xy)

可证明H(X)≥H(X∣Y)H(X)≥H(X|Y)H(X)H(XY)

互信息:
假定两个随机事件XXX,YYY,他们的互信息定义为:
I(X;Y)=∑x∈X,y∈YP(x,y)log⁡2P(x,y)P(x)P(y)I(X;Y)=\sum _{x\in X,y\in Y}P(x,y)\log_{2}\frac{P(x,y)}{P(x)P(y)}I(X;Y)=xX,yYP(x,y)log2P(x)P(y)P(x,y)
互信息描述了两个随机事件的相关性
实际上,互信息由
I(X;Y)=H(X)−H(X∣Y)I(X;Y)=H(X)-H(X|Y)I(X;Y)=H(X)H(XY)
导出。

库尔贝克——莱伯勒相对熵
衡量两个取值为正数的函数的相似性
KL(f(x)∣∣g(x))=∑x∈Xf(x)log⁡2f(x)g(x)KL(f(x)||g(x))=\sum_{x\in X}f(x)\log_2\frac{f(x)}{g(x)}KL(f(x)g(x))=xXf(x)log2g(x)f(x)

  • 两个完全相同的函数,其相对熵为0
  • 相对熵越大,两个函数差异越大
  • 对于概率分布或者概率密度函数,如果取值均大于0,相对熵可以度量两个随机分布的差异性

詹森——香农相对熵
注意到库尔贝克——莱伯勒相对熵是不对称的,进行对称平均对其修正,得到:
JS(f(x)∣∣g(x))=12[KL(f(x)∣∣g(x))+KL(g(x)∣∣f(x))]JS(f(x)||g(x))=\frac{1}{2}[KL(f(x)||g(x))+KL(g(x)||f(x))]JS(f(x)g(x))=21[KL(f(x)g(x))+KL(g(x)f(x))]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值