信息量化与自然语言处理先驱
1. 词语歧义消除与互信息
在处理文本时,像“bush”这样的词语常常存在歧义,它既可以指美国前总统布什(President Bush),也可以表示植物“灌木”。为了解决这类歧义问题,一种简单有效的方法是利用互信息。
具体操作步骤如下:
1. 确定与“President Bush”有高互信息的词语,例如“Washington”“United States”“President”等。
2. 对于植物类型的“bush”,找出类似的相关词语,如“soil”“environment”“wildlife”等。
3. 观察“bush”周围的上下文,根据这两组词语来判断文本中所指的是哪种“bush”。
这种方法由William Gale、Kenneth Church和David Yarowsky在20世纪90年代初首次提出。当时,Yarowsky作为宾夕法尼亚大学的博士生,与贝尔实验室等机构的研究人员合作。为了尽快完成学业,他想出了这个消歧方法。该方法简单而巧妙,效果显著,使得Yarowsky仅用三年就获得了博士学位,而他的同龄人平均需要六年。
2. 相对熵及其应用
信息熵和互信息是信息论的基础,对自然语言处理至关重要。接下来介绍另一个重要概念——相对熵(也称为Kullback - Leibler散度)。
相对熵用于衡量两个正函数之间的相似性,其定义为:
[KL (f (x)||g(x)) = \sum_{x\in X} f (x)\log \frac{f (x)}{g(x)}]
相对熵具有以下有用的性质:
1. 如果两个函数相同,它们的相对熵
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



