信息熵韦恩图中的数学关系

背景

    其日,阅文献,偶逢“马尔可夫链”,心起乐,遂取纸笔以证之。追思寻至数时,未果,以头痛罢。其后,偶得一奇法,遂疾书之。愿诸君闲暇之余,阅之以遣时,不是处多指正。

马尔科夫模型

    马尔科夫模型具体形式以链接形式给出,这里拿来引出问题。链接:马尔可夫模型。这里要介绍一个叫马尔可夫链的东东,它是一个多维条件随机变量的概率展开式①: p ( Y 1 Y 2 … Y n ∣ X 1 X 2 … X n ) = p ( Y 1 ∣ X 1 ) ∗ p ( Y 2 ∣ X 2 ) ∗ … p ( Y n ∣ X n ) ① p(Y_1Y_2\dots Y_n|X_1X_2\dots X_n)=p(Y_1|X_1)*p(Y_2|X_2)*\dots p(Y_n|X_n) ① p(Y1Y2YnX1X2Xn)=p(Y1X1)p(Y2X2)p(YnXn)其中, X 1 、 X 2 、 … X n X_1、X_2、\dots X_n X1X2Xn为输入序列, Y 1 、 Y 2 、 … Y n Y_1、Y_2、\dots Y_n Y1Y2Yn为输出序列。假如输入序列当前值为 X m X_m Xm,则 X m − 1 、 X m − 1 、 … X 1 X_{m-1}、X_{m-1}、\dots X_{1} Xm1Xm1X1会对当前值产生影响。但马尔可夫提出如下两个条件,使得上述马尔科夫链成立:

  1. 只有上一个输入序列会对当前序列有影响,即式②: p ( X m ∣ X m − 1 X m − 2 … X 1 ) = p ( X m ∣ X m − 1 ) ② p(X_m|X_{m-1}X_{m-2}\dots X_1)=p(X_m|X_{m-1})② p(XmXm1Xm2X1)=p(XmXm1)
  2. 输出序列当前值只与输入序列当前值有关。

一个疑惑

    根据上述两个条件,我开始对①进行了数学推导,但我遇到了疑惑:根据条件二, Y m Y_m Ym只与 X m X_m Xm有关,而 X m X_m Xm X m − 1 X_{m-1} Xm1有关,那么 Y m Y_m Ym X m − 1 X_{m-1} Xm1是否能够相互独立,我没有办法解决。于是我开始思考另一个问题,倘若有三个随机变量 X 、 Y 、 Z X、Y、Z XYZ,其中 X X X Y Y Y相互独立, X X X Z Z Z相互独立,而 Y Y Y Z Z Z之间不独立,是否能够推导出 p ( X Y Z ) = p ( X ) ∗ p ( Y Z ) p(XYZ)=p(X)*p(YZ) p(XYZ)=p(X)p(YZ),应该如何证明?是否有几条诸如 p ( X Y Z ) = p ( X ) ∗ p ( Y Z ) p(XYZ)=p(X)*p(YZ) p(XYZ)=p(X)p(YZ)的定理让我们在推导概率公式时可以引用?

问题初解

    根据两个条件: X X X Y Y Y相互独立,即 p ( X Y ) = p ( X ) ∗ p ( Y ) p(XY)=p(X)*p(Y) p(XY)=p(X)p(Y) X X X Z Z Z相互独立, p ( X Z ) = p ( X ) ∗ p ( Z ) p(XZ)=p(X)*p(Z) p(XZ)=p(X)p(Z)。现在开证: p ( X Y Z ) = p ( X Y ∣ Z ) ∗ p ( Z ) p(XYZ)=p(XY|Z)*p(Z) p(XYZ)=p(XYZ)p(Z),若能证明 p ( X Y ∣ Z ) = p ( X ∣ Z ) ∗ p ( Y ∣ Z ) p(XY|Z)=p(X|Z)*p(Y|Z) p(XYZ)=p(XZ)p(YZ)则就可以证明上述式子。而问题在于,如何证明在 Z Z Z已知条件下, X X X Y Y Y独立。我们可知,在没有外加条件情况下, X X X Y Y Y相互独立无可厚非,而在条件概率下, Y Y Y Z Z Z有相关性,则在 Z Z Z已知条件下, Y Y Y的概率密度函数是有可能改变的,那条件概率下的 Y Y Y是否与 X X X相互独立,当然感性认识告诉我们这一定相互独立,但我们似乎没有理论的办法对此进行证明。

信息熵的引入

    上述问题好似已经无路可走,即我们没有理论办法去证明“马尔可夫链”。那我们不免要问,马尔可夫是如何证明的?
    信息熵或许能够帮助我们解决这类问题。这里不再详细介绍信息熵的具体定义,但会在这里给出“互信息为零”与“相互独立”是充要条件的证明。关于信息熵与互信息的详细介绍,参考:信息熵与互信息

充要条件的证明

    假如现在有两个随机变量, X X X Y Y Y

充分性

    根据独立性条件: p ( X Y ) = p ( X ) ∗ p ( Y ) p(XY)=p(X)*p(Y) p(XY)=p(X)p(Y),互信息则为: I ( X , Y ) = H ( X ) − H ( X ∣ Y ) = ∑ x ∑ y p ( x , y ) l o g ( p ( x , y ) p ( x ) p ( y ) ) = ∑ x ∑ y p ( x , y ) l o g ( 1 ) = 0 I(X,Y)=H(X)-H(X|Y)=\sum_{x}\sum_{y}p(x,y)log(\frac{p(x,y)}{p(x)p(y)})=\sum_{x}\sum_{y}p(x,y)log(1)=0 I(X,Y)=H(X)H(XY)=xyp(x,y)log(p(x)p(y)p(x,y))=xyp(x,y)log(1)=0。即可以通过独立性条件推出互信息为零。
必要性
    条件为互信息为零。由函数 l o g log log为上凸函数,故可以使用 J e s s e n Jessen Jessen不等式 f ( E ( x ) ) ≥ E ( f ( x ) ) f(E(x))\geq E(f(x)) f(E(x))E(f(x))。由 I ( X , Y ) = ∑ x ∑ y p ( x , y ) l o g ( p ( x , y ) p ( x ) p ( y ) ) = − ∑ x ∑ y p ( x , y ) l o g ( p ( x ) p ( y ) p ( x , y ) ) ≤ l o g ( ∑ x ∑ y p ( x , y ) ∗ p ( x ) p ( y ) p ( x , y ) ) = l o g ( 1 ) = 0 I(X,Y)=\sum_{x}\sum_{y}p(x,y)log(\frac{p(x,y)}{p(x)p(y)})=-\sum_{x}\sum_{y}p(x,y)log(\frac{p(x)p(y)}{p(x,y)})\leq log(\sum_{x}\sum_{y}p(x,y)*\frac{p(x)p(y)}{p(x,y)})=log(1)=0 I(X,Y)=xyp(x,y)log(p(x)p(y)p(x,y))=xyp(x,y)log(p(x,y)p(x)p(y))log(xyp(x,y)p(x,y)p(x)p(y))=log(1)=0。当且仅当 p ( x , y ) p(x,y) p(x,y) 0 0 0 1 1 1组成或 p ( x ) p ( y ) p ( x , y ) \frac{p(x)p(y)}{p(x,y)} p(x,y)p(x)p(y)为常数时,等号成立。且可证,若满足前一个条件时,后一个条件会自动满足。故等号成立的唯一条件即为: p ( x ) p ( y ) p ( x , y ) \frac{p(x)p(y)}{p(x,y)} p(x,y)p(x)p(y)为常数,并且那个常数只能为 1 1 1,即 p ( X Y ) = p ( X ) ∗ p ( Y ) p(XY)=p(X)*p(Y) p(XY)=p(X)p(Y)。即可以通过互信息为零来推出随机变量独立性。
充要性
    根据上述充分性与必要性的证明,可知“两个随机变量相互独立“与“两个随机变量互信息为零”互为充要条件。

信息熵与韦恩图

    信息论中指出: I ( X , Y ) + H ( X Y ) = H ( X ) + H ( Y ) I(X,Y)+H(XY) = H(X)+H(Y) I(X,Y)+H(XY)=H(X)+H(Y)这根据我们韦恩图中的集合公式: p ( X ⋂ Y ) + p ( X ⋃ Y ) = p ( X ) + p ( Y ) p(X\bigcap Y)+p(X\bigcup Y)=p(X) + p(Y) p(XY)+p(XY)=p(X)+p(Y)似乎有相通之处。后者可以利用韦恩图进行表示,这让我们去思索前者是否也可以用韦恩图来表示。假设我们存在一个集合 s e t = { I 1 , I 2 , I 3 … I n } set=\{I_1,I_2,I_3\dots I_n\} set={I1,I2,I3In},这个特殊的集合元素是抽象的信息,即将信息量化,那就可以去理解韦恩图形式下的信息熵。信息熵韦恩图
    如图,两块区域表示两个信息集合,中间交叠位置表示两个信息集合共有的信息,两个信息集合的并集表示两个信息集合全部的信息。而两边每个集合扣除交集余下的信息集合称为条件信息集。从图中可以看出有如下关系式: I ( X , Y ) + H ( X Y ) = H ( X ) + H ( Y ) ③ I(X,Y)+H(XY) = H(X)+H(Y)③ I(X,Y)+H(XY)=H(X)+H(Y) H ( X Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) ④ H(XY) = H(X)+H(Y|X)=H(Y)+H(X|Y)④ H(XY)=H(X)+H(YX)=H(Y)+H(XY)特别地,式子④与概率论中的条件概率公式 p ( X Y ) = p ( X ∣ Y ) p ( Y ) p(XY)=p(X|Y)p(Y) p(XY)=p(XY)p(Y)有异曲同工之妙。

信息熵韦恩图应用

解答疑惑
    针对上述我们疑惑的问题,我们在韦恩图中进行表示:三变量信息熵韦恩图
    可知, H ( X Y ∣ Z ) = H ( X ) + H ( Y ∣ Z ) H(XY|Z)=H(X)+H(Y|Z) H(XYZ)=H(X)+H(YZ)可以推出: p ( X Y ∣ Z ) = p ( X ) p ( Y ∣ Z ) p(XY|Z)=p(X)p(Y|Z) p(XYZ)=p(X)p(YZ)。得证。
马尔科夫链
    根据马尔可夫模型两条假设,我们作出信息熵韦恩图:马尔科夫链模型
    如图,图中阴影部分可表示为: H ( Y 1 Y 2 … Y 6 ∣ X 1 X 2 … X 6 ) = H ( Y 1 ∣ X 1 ) + H ( Y 2 ∣ X 2 ) + … H ( Y 6 ∣ X 6 ) H(Y_1Y_2\dots Y_6|X_1X_2\dots X_6)=H(Y_1|X_1)+H(Y_2|X_2)+\dots H(Y_6|X_6) H(Y1Y2Y6X1X2X6)=H(Y1X1)+H(Y2X2)+H(Y6X6),利用概率表示即为: p ( Y 1 Y 2 … Y 6 ∣ X 1 X 2 … X 6 ) = p ( Y 1 ∣ X 1 ) ∗ p ( Y 2 ∣ X 2 ) ∗ … p ( Y 6 ∣ X 6 ) p(Y_1Y_2\dots Y_6|X_1X_2\dots X_6)=p(Y_1|X_1)*p(Y_2|X_2)*\dots p(Y_6|X_6) p(Y1Y2Y6X1X2X6)=p(Y1X1)p(Y2X2)p(Y6X6)值得注意的是, Y 5 Y_5 Y5虽然与 X 6 X_6 X6也有交集,但这并不违背马尔可夫条件,因为它们之间的交集也存在于 Y 5 Y_5 Y5 X 5 X_5 X5之中。
互信息的引伸
    关于韦恩图,我前一段时间写过一篇博客,这里正好可以用来引伸一下,之前的博客网址在这里。定义多变量互信息 I ( X 1 , X 2 , X 3 … , X n ) I(X_1,X_2,X_3\dots,X_n) I(X1,X2,X3,Xn)为多变量共有信息量,其值可以用其他信息集来表示,公式如下: I ( X 1 , X 2 , X 3 … X n ) = ( − 1 ) 0 ( H ( X 1 ) + H ( X 2 ) + H ( X 3 ) + … H ( X n ) ) + ( − 1 ) 1 ( H ( X 1 X 2 ) + H ( X 1 X 3 ) + H ( X 1 X 4 ) + ⋯ + H ( X n − 1 X n ) ) + ( − 1 ) 2 ( H ( X 1 X 2 X 3 ) + H ( X 1 X 2 X 4 ) + … H ( X n − 2 X n − 1 X n ) ) + ⋯ + ( − 1 ) n − 1 H ( X 1 X 2 X 3 … X n ) I(X_1,X_2,X_3\dots X_n)=(-1)^0(H(X_1)+H(X_2)+H(X_3)+\dots H(X_n))+(-1)^1(H(X_1X_2)+H(X_1X_3)+H(X_1X_4)+\dots +H(X_{n-1}X_n))+(-1)^2(H(X_1X_2X_3)+H(X_1X_2X_4)+\dots H(X_{n-2}X_{n-1}X_{n}))+\dots +(-1)^{n-1}H(X_1X_2X_3\dots X_n) I(X1,X2,X3Xn)=(1)0(H(X1)+H(X2)+H(X3)+H(Xn))+(1)1(H(X1X2)+H(X1X3)+H(X1X4)++H(Xn1Xn))+(1)2(H(X1X2X3)+H(X1X2X4)+H(Xn2Xn1Xn))++(1)n1H(X1X2X3Xn)。此公式还有一个变形式,这里先不做讨论,下次再重开一篇博客来写吧。

结语

    通过上述分析,我们获得了一种分析概率论的新的研究方法。有点意思~。欢迎大噶多多拍砖!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值