信息论基本概念(熵、联合熵、条件熵、相对熵、互信息)讲述与推导

本文详细介绍了信息论中的核心概念,包括熵、联合熵、条件熵等度量随机变量不确定性的指标,并阐述了相对熵与互信息的概念及其计算方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

熵(Entropy)

​ 熵是随机变量的不确定性的度量。设 X  X 是一个离散的随机变量,其取值空间为 X  X ,概率密度函数p(x)=P(X=x),xXp(x)=P(X=x),x∈X,则离散型随机变量 X  X 的信息熵 H(X)  H(X) 为,

H(X)=xXp(x)logp(x), log2(bit)H(X)=−∑x∈Xp(x)log⁡p(x), 对数log所用的底一般为2,因此其单位为比特(bit)

我们知道,如果Xp(x)X∼p(x),则随机变量 Y=g(X)  Y=g(X) 的数学期望 EY  EY 为,

EY=Epg(X)=xXg(x)p(x)Epg(X)g(X)p(x)EY=Epg(X)=∑x∈Xg(x)p(x),其中Epg(X)表示函数g(X)关于概率分布p(x)的期望

特别地,当 g(X)=logp(X)  g(X)=−log⁡p(X) 时,因此随机变量 X  X 的信息熵可以解释为H(X)=Elog1p(X)H(X)=Elog⁡1p(X)

另外我们知道,一条信息的信息量与其不确定性(概率)有直接的关系,由此我们可以得到,随机变量 X=x  X=x 的信息量为 log1p(X=x) log⁡1p(X=x),所以随机变量 X  X 的信息熵 H(X)  H(X) 还可以解释为随机变量 X  X 的信息量的期望(平均信息量)

联合熵(Joint entropy)与条件熵(Conditional entropy)

如果随机变量 (X,Y)p(x,y)  (X,Y)∼p(x,y) ,那么其联合熵 H(X,Y)  H(X,Y) 为,

H(X,Y)=xXyYp(x,y)logp(x,y)=Elogp(X,Y)H(X,Y)=−∑x∈X∑y∈Yp(x,y)log⁡p(x,y)=−Elog⁡p(X,Y)

一样地,其条件熵 H(Y|X)  H(Y|X) 为,

H(Y|X)=xXp(x)H(Y|X=x)=xXp(x)yYp(y|x)logp(y|x)=xXyYp(x,y)logp(y|x)=Elogp(Y|X)H(Y|X)=∑x∈Xp(x)H(Y|X=x)=−∑x∈Xp(x)∑y∈Yp(y|x)log⁡p(y|x)=−∑x∈X∑y∈Yp(x,y)log⁡p(y|x)=−Elog⁡p(Y|X)

另外,H(X,Y)=H(X)+H(Y|X)H(X,Y)=H(X)+H(Y|X),证明如下,

H(X,Y)=xXyYp(x,y)logp(x,y)=xXyYp(x,y)logp(x)p(y|x)=xXyYp(x,y)logp(x)xXyYp(x,y)logp(y|x)=xXp(x)logp(x)+H(Y|X)=H(X)+H(Y|X)H(X,Y)=−∑x∈X∑y∈Yp(x,y)log⁡p(x,y)=−∑x∈X∑y∈Yp(x,y)log⁡p(x)p(y|x)=−∑x∈X∑y∈Yp(x,y)log⁡p(x)−∑x∈X∑y∈Yp(x,y)log⁡p(y|x)=−∑x∈Xp(x)log⁡p(x)+H(Y|X)=H(X)+H(Y|X)

其中,

yYp(x,y)=p(x)∑y∈Yp(x,y)=p(x)为离散型随机变量的联合分布变为边缘分布

相对熵(交叉熵(Cross entropy))(Relative entropy)与互信息(Mutual information)

相对熵是两个随机分布之间距离的度量,相对熵 D(p||q)  D(p||q) 度量当真实分布为 p(x)  p(x) 而假定分布为 q(x)  q(x) 时的差异性

D(p||q)=xXp(x)logp(x)q(x)D(p||q)=∑x∈Xp(x)log⁡p(x)q(x)

互信息(信息增益)是一个随机变量包含另一个随机变量信息量的度量,也可以说是在给定一个随机变量的条件下,原随机变量的不确定性的减少量,

I(X;Y)=xXyYp(x,y)logp(x,y)p(x)p(y)=D(p(x,y)||p(x)p(y))I(X;Y)p(x,y)p(x)p(y)I(X;Y)=∑x∈X∑y∈Yp(x,y)log⁡p(x,y)p(x)p(y)=D(p(x,y)||p(x)p(y))即互信息I(X;Y)为联合分布p(x,y)和乘积分布p(x)p(y)之间的相对熵

另外,熵与互信息的关系,

I(X;Y)=H(Y)H(Y|X)=H(X)H(X|Y)I(X;Y)=H(Y)−H(Y|X)=H(X)−H(X|Y)
,证明如下,

I(X;Y)=xX,yYp(x,y)logp(x,y)p(x)p(y)=xX,yYp(x,y)logp(x|y)p(x)=xX,yYp(x,y)logp(x)(xX,yYp(x,y)logp(x|y))=H(X)H(X|Y)I(X;Y)=∑x∈X,y∈Yp(x,y)log⁡p(x,y)p(x)p(y)=∑x∈X,y∈Yp(x,y)log⁡p(x|y)p(x)=−∑x∈X,y∈Yp(x,y)log⁡p(x)−(−∑x∈X,y∈Yp(x,y)log⁡p(x|y))=H(X)−H(X|Y)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值