上一篇中的250万比特是个平均数,同样长度的书,所含信息量可以相差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的:同样意思的中文书比英文书薄。
自古以来,信息和消除不确定性是相联系的。英语中信息和情报是同一个词(Information)。在战争中,1比特能抵上千军万马。第二次世界大战时,纳粹德国兵临苏联莫斯科城下,斯大林在欧洲已经无兵可派,而在西伯利亚的中苏边界却有60万大军不敢使用,因为苏联不知道德国队的轴心国盟友日本的策略是北上进攻苏联还是南下和美国开战。如果是南下,苏联可以放心地从亚洲撤回60万大军增援莫斯科会战。事实上日本选择了南下,其直接行动是后来的偷袭珍珠港。但是苏联人并不知晓,斯大林不能猜,因为猜错的后果太严重了。最后,传奇间谍佐尔格向莫斯科发去了信息量仅1比特却价值无限的情报(信息):日本将南下。于是苏联把西伯利亚的所有军队调往了欧洲战场,后面的故事大家都知道了。
一个事物内部会存有随机性,也就是不确定性,假定为U,而从外部消除这个不确定性唯一的办法是引入信息I,而需要引入的信息量取决于这个不确定性的大小,即I>U才行。当I<U时,这些信息可以消除一部分的不确定性,也就是说新的不确定性:U'=U-I。几乎所有的nlp、信息与信号处理的应用都是一个消除不确定性的过程。
1864

被折叠的 条评论
为什么被折叠?



