对于2010世界杯冠军问题,可以证明,用该公式的值不可能大于5。
这就是熵的定义。
信息熵还跟冗余度有关,有些书本重复的内容很多,那么信息量就小了,冗余度比较大。
不同的语言冗余度差别很大,汉语是相对比较小的。
论文“汉语信息熵和语言模型的复杂度”
信息的作用
信息和情报都是information。
用了苏联人在二战时候的例子,日本人南下Or北上
信息是消除系统不确定性的唯一办法(在没有获得任何信息前,一个系统就像是一个黑盒子,引入信息,就可以了解黑盒子系统的内部结构)
一个事物内部会存在随机性,也就是不确定性,假定为U,而从外部消除这个不确定性唯一的办法是引入信息I,而需要引入的信息量取决于这个不确定性的大小,即I>U才行
U'=U-I
没有信息的引入,借用任何公式或者数学游戏都无法排除不确定性。
最糟糕的就是引入认为的假设。
条件熵:
可以证明:H(x)>=H(x|Y),H(x|Y)>=H(x|Y,Z),当引入无关的信息时,等号成立
用一句话概括:信息的作用在于消除不确定性,自然语言处理的大量问题就是找相关的信息。
信息论在信息处理中的应用
互信息:对两个随机事件“相关性”的量化度量,互信息定义如下:
由以下等式:
当X和Y完全相关时,它的取值是1;当二者完全无关时,它的取值是0;
利用互信息来对Bush进行机器翻译
相对熵:衡量两个取值为正数的函数的相似性
三条结论:
- 对于两个完全相同的函数,它们的相对熵等于0;
- 相对熵越大,两个函数差异越大;反之,相对熵越小,两个函数差异越小;
- 对于概率分布或者概率密度函数,如果取值均大于0,相对熵可以度量两个随机分布的差异性。
熵、条件熵和相对熵这三个概念与语言模型的关系非常密切
小结
信息熵不仅是对信息的量化度量,而且是整个信息论的基础。它对于通信、数据压缩、自然语言处理都有很强的指导意义