互信息

    有关系的信息才能消除不确定性,这个有关系有点模糊,最好能度量“相关性”才好。香农在信息论中提出了一个“互信息”的概念作为两个随机事件“相关性”的度量。假定有两个随机事件X和Y,它们的互信息定义如下:

    I(X;Y)=∑P(x,y)log(P(x,y)/P(x)P(y))

    互信息是随机事件X的不确定性或者说熵H(X),以及在知道随机事件Y条件下的不确定性,或者说条件熵H(X|Y)的差异,即I(X;Y)=H(X)-H(X|Y)。现在清楚了,所谓两个事件相关性的量化度量,就是在了解了其中一个Y的前提下,对消除另一个X不确定性所提供的信息量。需要提一下,互信息是一个取值在0到min(H(X),H(Y))之间的函数,当X和Y完全相关时取值为1,当两者完全无关时取值为0。在nlp中,两个随机事件,或者语言特征的互信息是很容易计算的。只要有足够的语料,就不难估计出互信息公式中的P(X,Y),P(X)和P(Y)三个概率,进而算出互信息。因此互信息被广泛应用于度量一些语言现象的相关性。

    机器翻译中,最难的两个问题之一是词义的二义性问题,比如Bush一词可以是美国总统布什的名字也可以是灌木丛。如何正确的翻译呢?人们想到了用语法,分析语句等等。其实迄今为止没有一种语法能很好地解决这个问题,因为Bush不管是翻译成布什还是灌木丛都是名词,在语法上没太大问题。其实真正简单却十分实用的方法是使用互信息。具体解决办法如下:首先从大量文本中找出和总统布什一起出现的互信息最大的词,比如总统、美国,国会等等,再用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译Bush时,看看上下文哪类相关的词多就可以了。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值