8、信息量化与自然语言处理先驱

信息量化与自然语言处理先驱

1. 词语歧义消除与互信息

在处理文本时,像“bush”这样的词语常常存在歧义,它既可以指美国前总统布什(President Bush),也可以表示植物“灌木”。为了解决这类歧义问题,一种简单有效的方法是利用互信息。
具体操作步骤如下:
1. 确定与“President Bush”有高互信息的词语,例如“Washington”“United States”“President”等。
2. 对于植物类型的“bush”,找出类似的相关词语,如“soil”“environment”“wildlife”等。
3. 观察“bush”周围的上下文,根据这两组词语来判断文本中所指的是哪种“bush”。

这种方法由William Gale、Kenneth Church和David Yarowsky在20世纪90年代初首次提出。当时,Yarowsky作为宾夕法尼亚大学的博士生,与贝尔实验室等机构的研究人员合作。为了尽快完成学业,他想出了这个消歧方法。该方法简单而巧妙,效果显著,使得Yarowsky仅用三年就获得了博士学位,而他的同龄人平均需要六年。

2. 相对熵及其应用

信息熵和互信息是信息论的基础,对自然语言处理至关重要。接下来介绍另一个重要概念——相对熵(也称为Kullback - Leibler散度)。

相对熵用于衡量两个正函数之间的相似性,其定义为:
[KL (f (x)||g(x)) = \sum_{x\in X} f (x)\log \frac{f (x)}{g(x)}]

相对熵具有以下有用的性质:
1. 如果两个函数相同,它们的相对熵

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值