信息论基础：熵、自信息与互信息-优快云博客

https://blog.youkuaiyun.com/ouyangfushu/article/details/85163997

1、信息

引用香农的话，信息是用来消除随机不确定性的东西，则某个类（xi）的信息定义如下:

样本概率越高信息量越小，自信息与取到的概率成反比

信息熵便是信息的期望值，熵的表达式为：

Gini系数的表达式为：

主要区别在于，熵达到峰值的过程要相对慢一些。因此，熵对于混乱集合的判罚要更重一些。

自信息

自信息（英语：self-information），又译为信息本体，由克劳德·香农提出，用来衡量单一事件发生时所包含的信息量多寡。它的单位是bit,或是nats。

自信息的含义包括两个方面：

1.自信息表示事件发生前，事件发生的不确定性。

2.自信息表示事件发生后，事件所包含的信息量，是提供给信宿的信息量，也是解除这种不确定性所需要的信息量。

互信息：

互信息(Mutual Information)是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。

离散随机事件之间的互信息：

换句话说就是，事件x,y之间的互信息等于“x的自信息”减去 “y条件下x的自信息”。 I(x)表示x的不确定性，I(x|y)表示在y发生条件下x的不确定性，I(x;y)表示当y发生后x不确定性的变化。两个不确定度之差，是不确定度消除的部分，代表已经确定的东西，实际就是由y发生所得到的关于x的信息量。互信息可正可负(但是自信息一定是正的)，所以就有了任何两事件之间的互信息不可能大于其中任一事件的自信息。(毕竟I(x;y)=I(y;x)=I(x)-I(x|y)=I(y)-I(y|x), I(x|y)和I(y|x)皆大于0 )

　　如果x事件提供了关于另一事件y的负的信息量，说明x的出现不利于y的出现。

　　另一个角度，如果x和y统计独立，即I(x|y)=I(y|x)=0. 则就会出现I(x;y) = I(x) 这种情况！，这也说明了另一个问题，就是一个事件的自信息是任何其他事件所能提供的关于该事件的最大信息量。