如果说概率是对事件确定性的度量、那么信息(包括信息量和信息熵)就是对事物不确定性的度量。信息熵是由香农(C.E.Shannon)在1948年发表的论文《通信的数据理论(A Mathematical Theory of Communication)》中提出的概念。他借用热力学中热熵的概念(热熵是表示分子状态混乱程度的物理量),解决了对信息的量化度量问题,也常用来对不确定性进行度量。
信息量与信息熵
信息量在数学上表示为I(X)=−logP(X)I(X) = -logP(X)I(X)=−logP(X)。
信息熵则被定义为对平均不确定性的度量。一个离散随机变量XXX的信息熵H(X)H(X)H(X)定义为:
H(X)=∑XP(X)log1P(X)=−∑XP(X)logP(X)H(X) = \sum_{X}P(X)log\frac{1}{P(X)}= -\sum_{X}P(X)logP(X)H(X)=∑XP(X)logP(X)1=−∑XP(X)logP(X)
其中、约定0log(1/0)=00log(1 / 0) = 00log(1/0)=0,对数若以2为底,则熵的单位是比特;若以eee为底,则其单位是奈特。若无特殊说明,则均采用比特为单位。
1、信息熵的本质是信息量的期望。
2、信息熵是对随机变量不确定性的度量。随机变量XXX的熵越大,说明它的不确定性也越大。若随机变量退化为定值,则熵为0。
3、平均分布是“最不确定”的分布。
下面举两个例子来说明这一点。
例1、考虑一个取值为0或1的随机变量XXX,满足(0, 1)分布,记p=P(x=1)p = P(x=1)p=P(x=1)。根据熵的定义,有:
H(X)=−plog(p)−(1−p)log(1−p)H(X) = -plog(p) - (1-p)log(1-p)H(X)=−plog(p)−(1−p)log(1−p)
如图,当p=0p=0p=0或p=1p=1p=1时,我们肯定地知道XXX的取值,不确定性最小,H(X)=0H(X) = 0H(X)=0。当p=0.5p=0.5p=0.5时,对XXX的取值的不确定性达到最大,此时H(X)=1H(X) = 1H(X)=1。该例子验证了上面熵的性质。
例2、记XXX、YYY和ZZZ分别为掷硬币、掷骰子,以及从54张扑克牌中随意抽取一张的结果。显然XXX的不确定性最小,YYY的不确定性居中,而ZZZ的不确定性最大。与之相应,这3个随机变量的熵之间也恰恰存在这样的关系,即H(X)<H(Y)<H(Z)H(X) < H(Y) < H(Z)H(X)<H(Y)<H(Z)。
H(X)=∑1212log(2)=log2H(X) = \sum_{1}^{2} \frac{1}{2} log(2) = log2H(X)=∑1221log(2)=log2
H(Y)=∑1616log(6)=log6H(Y) = \sum_{1}^{6} \frac{1}{6} log(6) = log6H(Y)=∑1661log(6)=log6
H(Z)=∑154154log(54)=log54H(Z) = \sum_{1}^{54} \frac{1}{54} log(54) = log54H(Z)=∑154541log(54)=log54
用∣X∣|X|∣X∣来记作XXX变量的取值个数,又称为变量的势。
熵的基本性质如下:
1、H(X)>=0H(X) >= 0H(X)>=0
2、H(X)<=log∣X∣H(X) <= log|X|H(X)<=log∣X∣,等号成立的条件,当且仅当XXX的所有取值xxx有P(X=x)=1∣X∣P(X=x) = \frac{1}{|X|}P(X=x)=∣X∣1。
互信息、联合熵、条件熵
1、互信息
如图,通过该图理解互信息比较容易。一般而言,信道中总是存在着噪声和干扰,信源发出消息xxx,通过信道后信宿只可能收到由于干扰作用引起的某种变形yyy。信宿收到yyy后推测信源发出xxx的概率,这一过程可由后验概率p(x∣y)p(x|y)p(x∣y)来描述。相应的,信源发出xxx的概率p(x)p(x)p(x)称为先验概率。定义xxx的后验概率与先验概率比值的对数为yyy对xxx的互信息量(简称互信息)。其公式如下:
互信息定义:I(y,x)=I(y)−I(y∣x)=logP(y∣x)P(y)I(y, x) = I(y) - I(y|x) = log \frac{P(y|x)}{P(y)}I(y,x)=I(y)−I(y∣x)=logP(y)P(y∣x)
互信息的性质如下:
1、互信息可以理解为,收信者收到信息XXX后,对信源YYY的不确定性的消除。
2、互信息 = III(先验事件) - III(后验事件) = log后验概率先验概率log\frac {后验概率}{先验概率}log先验概率后验概率。
3、互信息是对称的。
平均互信息:I(X;Y)=∑X,Y P(X,Y)logP(X,Y)P(X)P(Y)I(X;Y) = \sum_{X,Y} \ P(X,Y)log\frac{P(X,Y)}{P(X)P(Y)}I(X;Y)=∑X,Y P(X,Y)logP(X)P(Y)P(X,Y)
平均互信息又称为信息增益。
2、联合熵
联合熵是借助联合分率分布对熵的自然推广,两个离散随机变量XXX和YYY的联合熵定义为:
H(X,Y)=∑X,Y P(X,Y)log1P(X,Y)=−∑XY P(X,Y)log(X,Y)H(X,Y) = \sum_{X,Y} \ P(X,Y)log \frac{1}{P(X,Y)} = -\sum_{XY} \ P(X,Y)log(X,Y)H(X,Y)=∑X,Y P(X,Y)logP(X,Y)1=−∑XY P(X,Y)log(X,Y)
3、条件熵
条件熵是利用概率分布对熵的一个延伸。随机变量XXX的熵是用它的概率分布P(X)P(X)P(X)来定义的。如果知道另一个随机变量YYY的取值为yyy,那么XXX的后验分布即为P(X∣Y=y)P(X|Y=y)P(X∣Y=y)。利用条件分布可以定义给定Y=yY=yY=y时XXX的条件熵为:
H(X∣Y=y)=−∑XP(X∣Y=y)logP(X∣Y=y)H(X|Y=y) = -\sum_X P(X|Y=y)logP(X|Y=y)H(X∣Y=y)=−∑XP(X∣Y=y)logP(X∣Y=y)
熵H(X)H(X)H(X)变量的是随机变量XXX的不确定性,条件熵H(X∣Y=y)H(X|Y=y)H(X∣Y=y)变量的则是已知Y=yY=yY=y后,XXX的不确定性。
熵的链式规则:
H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
I(X;Y)+H(X,Y)=H(X)+H(Y)I(X;Y) + H(X,Y) = H(X) + H(Y)I(X;Y)+H(X,Y)=H(X)+H(Y)
如图所示为联合熵、条件熵和互信息之间的关系:
边缘独立定理:从信息论角度为“边缘独立”这一概念提供了一个直观解释,即两个随机变量相互独立当且仅当它们之间的互信息为0。
接下来考虑3个变量XXX、YYY和ZZZ之间的条件独立关系。条件熵H(X∣Z)H(X|Z)H(X∣Z)是给定ZZZ时XXX剩余的不确定性,如果进一步再给定YYY,则XXX剩余的不确定性变为H(X∣Z,Y)H(X|Z,Y)H(X∣Z,Y)。因此,这两者之差即是给定ZZZ时观测YYY的取值会带来的关于XXX的信息量,即:
I(X;Y∣Z)=H(X∣Z)−H(X∣Z,Y)I(X;Y|Z) = H(X|Z) - H(X|Z,Y)I(X;Y∣Z)=H(X∣Z)−H(X∣Z,Y)
称为给定ZZZ时YYY关于XXX的信息,容易证明I(X;Y∣Z)=I(Y;X∣Z)I(X;Y|Z) = I(Y;X|Z)I(X;Y∣Z)=I(Y;X∣Z)。于是,I(X;Y∣Z)I(X;Y|Z)I(X;Y∣Z)也称为给定ZZZ时XXX和YYY之间的条件互信息。
定理:对任意3个离散随机变量XXX、YYY和ZZZ,有:
1、I(X,Y∣Z)>=0I(X,Y|Z) >= 0I(X,Y∣Z)>=0
2、H(X∣Y,Z)<=H(X∣Z)H(X|Y,Z) <= H(X|Z)H(X∣Y,Z)<=H(X∣Z)
上述定理的意义在于,它从信息论的角度为随机变量之间的“条件独立”这一概念提供了一个直观解释,即给定ZZZ,两个随机变量XXX和YYY相互条件独立,当且仅当它们的条件互信息为零,或者说,YYY关于XXX的信息已全部包含在ZZZ中,从而观测到ZZZ后,再对YYY进行的观测不会带来关于XXX的更多信息。另外,如果XXX和YYY在给定ZZZ时相互不独立,则H(X∣Z,Y)=H(X∣Z)H(X|Z,Y) = H(X|Z)H(X∣Z,Y)=H(X∣Z),即在已知ZZZ的基础上对YYY的进一步观测将会带来关于XXX的新信息,从而降低XXX的不确定性。
交叉熵和KL散度
1、交叉熵
H(P;Q)=−∑Pp(Z)logPq(Z)H(P;Q) = -\sum P_p(Z)logP_q(Z)H(P;Q)=−∑Pp(Z)logPq(Z)
1、交叉熵常用来衡量两个概率分布的差异性。
2、在Logistic中的交叉熵为其代价函数。
2、相对熵与变量独立
相对熵定义:对定义随机变量XXX的状态空间Ωx\Omega_xΩx上的两个概率分布P(X)P(X)P(X)和Q(X)Q(X)Q(X),可以用相对熵来度量它们之间的差异,即有:
KL(P,Q)=∑XP(X)logP(X)Q(X)KL(P,Q) = \sum_X P(X)log \frac{P(X)}{Q(X)}KL(P,Q)=∑XP(X)logQ(X)P(X)
其中,约定0log0q=00log\frac{0}{q} = 00logq0=0;plogp0=∞plog\frac{p}{0} = \inftyplog0p=∞,∀p>0\forall p > 0∀p>0。KL(P,Q)KL(P,Q)KL(P,Q)又称为P(X)P(X)P(X)和Q(X)Q(X)Q(X)之间的KLKLKL散度。但严格来讲它不是一个真正意义上的距离,因为KL(P,Q)≠KL(Q,P)KL(P,Q) \neq KL(Q,P)KL(P,Q)̸=KL(Q,P)。
定理:设P(X)P(X)P(X)和Q(X)Q(X)Q(X)为定义在某个变量XXX的状态空间Ωx\Omega_xΩx上的两个概率分布,则有:
KL(P,Q)>=0KL(P,Q) >= 0KL(P,Q)>=0
其中,当且仅当PPP和QQQ相同,即P(X=x)=Q(X=x)P(X=x) = Q(X=x)P(X=x)=Q(X=x),∀x ε Ωx\forall x \ \varepsilon \ \Omega_x∀x ε Ωx时等号成立。
推论,对于满足∑f(X)>0\sum f(X) > 0∑f(X)>0的非负函数f(X)f(X)f(X),定义概率分布P∗(X)P^*(X)P∗(X)为:
P∗(X)=f(X)∑X f(X)P^*(X) = \frac {f(X)} {\sum_X \ f(X)}P∗(X)=∑X f(X)f(X)
那么,对于任意其他的概率分布P(X)P(X)P(X),则有:
∑Xf(X)logP∗(X)⩾∑Xf(X)logP(X)\sum_X f(X)logP^*(X) \geqslant \sum_X f(X)logP(X)∑Xf(X)logP∗(X)⩾∑Xf(X)logP(X)
其中,当且仅当P∗P^*P∗与PPP相同时等号成立。
定理:互信息与变量独立之间的两个关系,首先有如下定理,对任意两个离散随机变量XXX和YYY有:
1、I(X,Y)⩾0I(X,Y) \geqslant 0I(X,Y)⩾0
2、H(X∣Y)≤H(X)H(X|Y) \leq H(X)H(X∣Y)≤H(X)
上述两式当且仅当XXX与YYY相互独立时等号成立。
如下,交叉熵与KLKLKL散度之间的关系:
本文摘自《NLP汉语自然语言处理原理与实践》