信息熵

一条信息的信息量与其不确定性有着直接的关系。比如说,我们要搞清楚一条非常非常不确定的事,或是我们一无所知的事,就需要了解大量的信息。相反,如果已对某件事了解的比较多,则不需要太多的信息就能把它搞清楚。所以,从这个角度来看,可以认为,信息量就不确定性的多少。
那么如果量化信息量的度量?来看一个例子。2014年举行了世界杯足球赛,大家都很关心冠军是谁。假如错过了看世界杯,赛后我问一个知道比赛结果的观众,哪只球队是冠军。他没有直接告诉我,而是让我猜,并且我每猜一次,他都要收一块钱才肯告诉我我是否猜对了,那么我要掏多少钱才能知道谁是冠军呢?我可以把球队编号,从1到32,用二分法只需要5次就可以了。所以,谁是冠军这条消息的信息量只值5块钱。
而在现实中,我们使用“比特”(bit)这个概念来度量信息量。一个比特是一个二进制数,在计算机中,一个字节就是8比特。在上面的例子中,这条消息的信息量就是5比特。(2^5=32)
有些读者会发现实际上可能不需要5次就能猜出谁是冠军,因为像西班牙、巴西、德国、意大利这样的球队夺得冠军的可能比日本、韩国等对球队的可能性大很多。因此,第一次猜测时不需要把32支球队等分成两个组,而可以把少数几个强队分成一组,其他球队为另外一组。猜测冠军是否在那几只热门球队中。重复这样的过程,根据夺冠概率对余下候选球队分组,直至找到冠军队。这样也许三次或四次就猜出结果。因此,当每只球队夺冠的可能性(概率)不等时,“冠军”的信息量比5比特少。香农指出,准确信息量应该是
H=-(p1logp1 + p2logp2 + …+p32*logp32)
其中p1,p2…p32分别是这32支球队夺冠的概率。香农把它称为“信息熵”(Entropy),一般用符号H表示,单位是比特。当32支球队夺冠概率相同时,对应的信息熵等于5比特。
变量的不确定性越大,熵也就越大,要把它搞清楚,所需信息量也就越大。信息量的量化度量为什么叫做“熵”这么一个奇怪的名字呢?因为它的定义形式和热力学的熵有很大的相似性。
有了“熵”这个概念,就可以回答本文开始提出的问题,即一本50万字的中文书平均有多少信息量。我们知道,常用的汉字大约有7000字。假如每个字等概率,那么大约需要13比特表示一个汉字。但汉字的使用频率不是均等的。实际上,前10%的汉字占常用文本的95%以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立概率,那么,每个汉字的信息熵就只有8-9比特左右。如果再考虑上下文,每个汉字的信息熵就只有5比特左右。所以一本50万字的中文书,信息量大约是250万比特。采用较好的算法进行压缩,整本书可以存成一个320KB的文件。如果直接用两字节的国标编码压缩这本书,大约需要1MB左右,是压缩文本的3倍。这两个数量的差距,在信息论中称作“冗余度”(Redundancy)。需要指出的是这里讲的250万比特是个平均数,同样长度的书,所含的信息量可以相差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。
不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。大家可能都有这个经验,一本英文书,翻译成汉语,如果字体大小相同,那么中译本一般会薄很多。这和人们普遍的认识——汉语是最简洁的语言是一致的。

EMC VPLEX VS2 控制台更换是指对EMC VPLEX VS2 存储设备的管理界面进行更换或更新的操作。 EMC VPLEX VS2 控制台是一个提供给管理员和操作员使用的图形化界面,用于管理和监控 VPLEX 存储设备的各项功能和配置。控制台通常由软件提供,可以安装在特定的服务器上,通过网络与 VPLEX 设备进行通信。 控制台更换是指将原有的控制台软件升级或替换为新的版本,以提供更好的功能和用户体验。控制台更换的步骤通常包括以下几个方面: 1. 确认新控制台软件的兼容性:在进行更换之前,需要验证新控制台软件是否与当前使用的 VPLEX VS2 存储设备兼容。如果不兼容,则需要考虑其他解决方案。 2. 备份原有配置:在进行更换之前,需要对原有的控制台配置进行备份,以防止丢失配置信息。备份可以通过导出当前的配置文件或设置文件来完成。 3. 升级或替换控制台软件:根据新控制台软件的要求,进行相应的升级或替换操作。这通常需要在控制台所在的服务器上执行软件安装程序,并按照提示进行相应的操作。 4. 恢复配置:在更换完成后,将备份的配置文件导入到新控制台中,以恢复原有的配置信息。这包括网络连接、存储卷配置、备份策略等。 5. 测试和验证:在更换完成后,需要进行一系列的测试和验证,确保新控制台软件正常工作,并且能够正确地管理和监控 VPLEX VS2 存储设备。 综上所述,EMC VPLEX VS2 控制台更换是一个复杂且关键的操作,需要仔细规划和操作。在进行更换之前,需要确保新控制台软件的兼容性,并备份原有的配置信息。在更换过程中,需要按照指南的步骤进行,并在完成后进行测试和验证,以确保系统的稳定性和安全性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值