互信息(一)信息与信息熵
信息与信息熵
如何测量信息
信息也是一种物理量
从感性上来说,信息量是描述变化程度的量,在物理上,我们可以容易的找到另一个物理量——功
信息熵与信息量的定义方式:以动能与功的关系为参考
现在考虑我们是如何计算某个阶段给物体带来的总体上的动能变化的——我们对于很复杂的过程,我们一般不直接进行测量/计算这个阶段的各种力在时间维度上的做功变化(因为功作为一个反映变化的物理量是较难直接测量的),而是利用动能定理及其特殊形式,考虑物体在阶段前后的能量状态(这样的状态是容易测量的,因为我们可以直接测量速度等物理量),前后能量状态作差,即可得到总体的变化量
信息与熵就类似功与动能的关系,众所周知,熵描述的是对于观察者来说,事物微观态不确定的程度
当一件事情(宏观态)有多种可能情况(微观态)时,这件事情对观察者来说具体是那种情况(微观态)的不确定性称为熵
当提供信息时,一般来说,事情的不确定性将会减少,对应的熵将减少,而信息量就是熵减少的量
举个例子,有一个大佬发了一篇顶会paper,考虑月份,你觉得应该是ICLR,EACL,AAMAS,CVPR,但你对你这个大佬同学和这四个会议一点了解都没有,所以大佬发四个会议的paper对你来说是等概率的。在这个状态下,大佬发了哪个会议的不确定性最大,也就是系统的熵最大。这时候有人告诉你,这个大佬有一天聚餐的时候扬言做CV的都是垃圾,那么他肯定发的不是CVPR,现在微观态的不确定性从4个等可能性选项变成了3个等可能性选项,系统的不确定性减少了,熵也就减少了,熵减少的量,就是该信息的信息量
信息量的定义方式:以质量的定义方式为参考
在对信息量有了直观理解后,我们就会自然地想到下一个问题:如何衡量信息量的多少呢?
我们不妨先考虑质量的定义方式
质量的定义是人为的、相对的,给定一个参照物体a,其质量定义为1kg,对于待测物体b来说,以等质量所需的a的"个数"来表示b的质量,即
1 ∗ m b = n ∗ m a n = m b / m a ∗ 1 k g 1*m_b=n*m_a\\ n=m_b/m_a*1\ kg 1∗mb=n∗man=mb/ma∗