机器学习:信息熵理解

    如果说概率是对事件确定性的度量、那么信息(包括信息量和信息熵)就是对事物不确定性的度量。信息熵是由香农(C.E.Shannon)在1948年发表的论文《通信的数据理论(A Mathematical Theory of Communication)》中提出的概念。他借用热力学中热熵的概念(热熵是表示分子状态混乱程度的物理量),解决了对信息的量化度量问题,也常用来对不确定性进行度量。


信息量与信息熵

    信息量在数学上表示为I(X)=−logP(X)I(X) = -logP(X)I(X)=logP(X)
    信息熵则被定义为对平均不确定性的度量。一个离散随机变量XXX的信息熵H(X)H(X)H(X)定义为:

    H(X)=∑XP(X)log1P(X)=−∑XP(X)logP(X)H(X) = \sum_{X}P(X)log\frac{1}{P(X)}= -\sum_{X}P(X)logP(X)H(X)=XP(X)logP(X)1=XP(X)logP(X)

    其中、约定0log(1/0)=00log(1 / 0) = 00log(1/0)=0,对数若以2为底,则熵的单位是比特;若以eee为底,则其单位是奈特。若无特殊说明,则均采用比特为单位。
    1、信息熵的本质是信息量的期望。
    2、信息熵是对随机变量不确定性的度量。随机变量XXX的熵越大,说明它的不确定性也越大。若随机变量退化为定值,则熵为0。
    3、平均分布是“最不确定”的分布。

    下面举两个例子来说明这一点。
    例1、考虑一个取值为0或1的随机变量XXX,满足(0, 1)分布,记p=P(x=1)p = P(x=1)p=P(x=1)。根据熵的定义,有:

    H(X)=−plog(p)−(1−p)log(1−p)H(X) = -plog(p) - (1-p)log(1-p)H(X)=plog(p)(1p)log(1p)

    如图,当p=0p=0p=0p=1p=1p=1时,我们肯定地知道XXX的取值,不确定性最小,H(X)=0H(X) = 0H(X)=0。当p=0.5p=0.5p=0.5时,对XXX的取值的不确定性达到最大,此时H(X)=1H(X) = 1H(X)=1。该例子验证了上面熵的性质。
        在这里插入图片描述

    例2、记XXXYYYZZZ分别为掷硬币、掷骰子,以及从54张扑克牌中随意抽取一张的结果。显然XXX的不确定性最小,YYY的不确定性居中,而ZZZ的不确定性最大。与之相应,这3个随机变量的熵之间也恰恰存在这样的关系,即H(X)&lt;H(Y)&lt;H(Z)H(X) &lt; H(Y) &lt; H(Z)H(X)<H(Y)<H(Z)

    H(X)=∑1212log(2)=log2H(X) = \sum_{1}^{2} \frac{1}{2} log(2) = log2H(X)=1221log(2)=log2

    H(Y)=∑1616log(6)=log6H(Y) = \sum_{1}^{6} \frac{1}{6} log(6) = log6H(Y)=1661log(6)=log6

    H(Z)=∑154154log(54)=log54H(Z) = \sum_{1}^{54} \frac{1}{54} log(54) = log54H(Z)=154541log(54)=log54

    用∣X∣|X|X来记作XXX变量的取值个数,又称为变量的势。

    熵的基本性质如下:
    1、H(X)&gt;=0H(X) &gt;= 0H(X)>=0
    2、H(X)&lt;=log∣X∣H(X) &lt;= log|X|H(X)<=logX,等号成立的条件,当且仅当XXX的所有取值xxxP(X=x)=1∣X∣P(X=x) = \frac{1}{|X|}P(X=x)=X1


互信息、联合熵、条件熵

1、互信息

    如图,通过该图理解互信息比较容易。一般而言,信道中总是存在着噪声和干扰,信源发出消息xxx,通过信道后信宿只可能收到由于干扰作用引起的某种变形yyy。信宿收到yyy后推测信源发出xxx的概率,这一过程可由后验概率p(x∣y)p(x|y)p(xy)来描述。相应的,信源发出xxx的概率p(x)p(x)p(x)称为先验概率。定义xxx的后验概率与先验概率比值的对数为yyyxxx的互信息量(简称互信息)。其公式如下:

    互信息定义:I(y,x)=I(y)−I(y∣x)=logP(y∣x)P(y)I(y, x) = I(y) - I(y|x) = log \frac{P(y|x)}{P(y)}I(y,x)=I(y)I(yx)=logP(y)P(yx)

        在这里插入图片描述

    互信息的性质如下:

    1、互信息可以理解为,收信者收到信息XXX后,对信源YYY的不确定性的消除。
    2、互信息 = III(先验事件) - III(后验事件) = log后验概率先验概率log\frac {后验概率}{先验概率}log
    3、互信息是对称的。

    平均互信息:I(X;Y)=∑X,Y P(X,Y)logP(X,Y)P(X)P(Y)I(X;Y) = \sum_{X,Y} \ P(X,Y)log\frac{P(X,Y)}{P(X)P(Y)}I(X;Y)=X,Y P(X,Y)logP(X)P(Y)P(X,Y)
    平均互信息又称为信息增益。

2、联合熵

    联合熵是借助联合分率分布对熵的自然推广,两个离散随机变量XXXYYY的联合熵定义为:

    H(X,Y)=∑X,Y P(X,Y)log1P(X,Y)=−∑XY P(X,Y)log(X,Y)H(X,Y) = \sum_{X,Y} \ P(X,Y)log \frac{1}{P(X,Y)} = -\sum_{XY} \ P(X,Y)log(X,Y)H(X,Y)=X,Y P(X,Y)logP(X,Y)1=XY P(X,Y)log(X,Y)

3、条件熵

    条件熵是利用概率分布对熵的一个延伸。随机变量XXX的熵是用它的概率分布P(X)P(X)P(X)来定义的。如果知道另一个随机变量YYY的取值为yyy,那么XXX的后验分布即为P(X∣Y=y)P(X|Y=y)P(XY=y)。利用条件分布可以定义给定Y=yY=yY=yXXX的条件熵为:

    H(X∣Y=y)=−∑XP(X∣Y=y)logP(X∣Y=y)H(X|Y=y) = -\sum_X P(X|Y=y)logP(X|Y=y)H(XY=y)=XP(XY=y)logP(XY=y)

    熵H(X)H(X)H(X)变量的是随机变量XXX的不确定性,条件熵H(X∣Y=y)H(X|Y=y)H(XY=y)变量的则是已知Y=yY=yY=y后,XXX的不确定性。
    熵的链式规则:

    H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)

    I(X;Y)+H(X,Y)=H(X)+H(Y)I(X;Y) + H(X,Y) = H(X) + H(Y)I(X;Y)+H(X,Y)=H(X)+H(Y)

    如图所示为联合熵、条件熵和互信息之间的关系:
        在这里插入图片描述
    边缘独立定理:从信息论角度为“边缘独立”这一概念提供了一个直观解释,即两个随机变量相互独立当且仅当它们之间的互信息为0。
    接下来考虑3个变量XXXYYYZZZ之间的条件独立关系。条件熵H(X∣Z)H(X|Z)H(XZ)是给定ZZZXXX剩余的不确定性,如果进一步再给定YYY,则XXX剩余的不确定性变为H(X∣Z,Y)H(X|Z,Y)H(XZ,Y)。因此,这两者之差即是给定ZZZ时观测YYY的取值会带来的关于XXX的信息量,即:

    I(X;Y∣Z)=H(X∣Z)−H(X∣Z,Y)I(X;Y|Z) = H(X|Z) - H(X|Z,Y)I(X;YZ)=H(XZ)H(XZ,Y)

    称为给定ZZZYYY关于XXX的信息,容易证明I(X;Y∣Z)=I(Y;X∣Z)I(X;Y|Z) = I(Y;X|Z)I(X;YZ)=I(Y;XZ)。于是,I(X;Y∣Z)I(X;Y|Z)I(X;YZ)也称为给定ZZZXXXYYY之间的条件互信息。

    定理:对任意3个离散随机变量XXXYYYZZZ,有:

    1、I(X,Y∣Z)&gt;=0I(X,Y|Z) &gt;= 0I(X,YZ)>=0

    2、H(X∣Y,Z)&lt;=H(X∣Z)H(X|Y,Z) &lt;= H(X|Z)H(XY,Z)<=H(XZ)

    上述定理的意义在于,它从信息论的角度为随机变量之间的“条件独立”这一概念提供了一个直观解释,即给定ZZZ,两个随机变量XXXYYY相互条件独立,当且仅当它们的条件互信息为零,或者说,YYY关于XXX的信息已全部包含在ZZZ中,从而观测到ZZZ后,再对YYY进行的观测不会带来关于XXX的更多信息。另外,如果XXXYYY在给定ZZZ时相互不独立,则H(X∣Z,Y)=H(X∣Z)H(X|Z,Y) = H(X|Z)H(XZ,Y)=H(XZ),即在已知ZZZ的基础上对YYY的进一步观测将会带来关于XXX的新信息,从而降低XXX的不确定性。


交叉熵和KL散度

1、交叉熵

    H(P;Q)=−∑Pp(Z)logPq(Z)H(P;Q) = -\sum P_p(Z)logP_q(Z)H(P;Q)=Pp(Z)logPq(Z)

    1、交叉熵常用来衡量两个概率分布的差异性。
    2、在Logistic中的交叉熵为其代价函数。

2、相对熵与变量独立

    相对熵定义:对定义随机变量XXX的状态空间Ωx\Omega_xΩx上的两个概率分布P(X)P(X)P(X)Q(X)Q(X)Q(X),可以用相对熵来度量它们之间的差异,即有:

    KL(P,Q)=∑XP(X)logP(X)Q(X)KL(P,Q) = \sum_X P(X)log \frac{P(X)}{Q(X)}KL(P,Q)=XP(X)logQ(X)P(X)

    其中,约定0log0q=00log\frac{0}{q} = 00logq0=0plogp0=∞plog\frac{p}{0} = \inftyplog0p=∀p&gt;0\forall p &gt; 0p>0KL(P,Q)KL(P,Q)KL(P,Q)又称为P(X)P(X)P(X)Q(X)Q(X)Q(X)之间的KLKLKL散度。但严格来讲它不是一个真正意义上的距离,因为KL(P,Q)≠KL(Q,P)KL(P,Q) \neq KL(Q,P)KL(P,Q)̸=KL(Q,P)

    定理:设P(X)P(X)P(X)Q(X)Q(X)Q(X)为定义在某个变量XXX的状态空间Ωx\Omega_xΩx上的两个概率分布,则有:

    KL(P,Q)&gt;=0KL(P,Q) &gt;= 0KL(P,Q)>=0

    其中,当且仅当PPPQQQ相同,即P(X=x)=Q(X=x)P(X=x) = Q(X=x)P(X=x)=Q(X=x)∀x ε Ωx\forall x \ \varepsilon \ \Omega_xx ε Ωx时等号成立。

    推论,对于满足∑f(X)&gt;0\sum f(X) &gt; 0f(X)>0的非负函数f(X)f(X)f(X),定义概率分布P∗(X)P^*(X)P(X)为:

    P∗(X)=f(X)∑X f(X)P^*(X) = \frac {f(X)} {\sum_X \ f(X)}P(X)=X f(X)f(X)

    那么,对于任意其他的概率分布P(X)P(X)P(X),则有:

    ∑Xf(X)logP∗(X)⩾∑Xf(X)logP(X)\sum_X f(X)logP^*(X) \geqslant \sum_X f(X)logP(X)Xf(X)logP(X)Xf(X)logP(X)

    其中,当且仅当P∗P^*PPPP相同时等号成立。

    定理:互信息与变量独立之间的两个关系,首先有如下定理,对任意两个离散随机变量XXXYYY有:

    1、I(X,Y)⩾0I(X,Y) \geqslant 0I(X,Y)0

    2、H(X∣Y)≤H(X)H(X|Y) \leq H(X)H(XY)H(X)

    上述两式当且仅当XXXYYY相互独立时等号成立。

    如下,交叉熵与KLKLKL散度之间的关系:
        在这里插入图片描述

本文摘自《NLP汉语自然语言处理原理与实践》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值