自然语言处理中的统计估计与词义消歧
在自然语言处理(NLP)领域,统计估计和词义消歧是两个关键的研究方向。统计估计在语言建模中起着重要作用,而词义消歧则有助于解决自然语言中普遍存在的歧义问题。
1. 统计估计相关研究
在语言建模的统计估计方面,有许多重要的研究。Katz、Jelinek、Church 和 Gale、Ney 和 Essen 以及 Ristad(1995)等人的研究成果都具有重要意义。此外,Jelinek(1997)和 Ney 等人(1997)对估计技术进行了进一步讨论。
Gale 和 Church(1994)详细探讨了“加一法”存在的问题。而 Gale 和 Sampson(1995)则对 Good - Turing 估计进行了易于理解的阐述。Chen 和 Goodman(1996,1998)对各种平滑方法进行了广泛的实证比较,这一研究尤其值得推荐。
最大似然估计的概念最早由 Fisher(1922)定义。Ney 等人(1997)证明了相对频率确实是最大似然估计。近年来,最大熵方法在模型组合中的应用越来越广泛。
早期的相关工作还包括 Lidstone、Johnson 和 Jeffreys(1948)的研究。Good(1979)介绍了 Turing 平滑思想的初步发展,该文章在 Britton(1992)中得到了扩充和重印。
2. 统计估计相关练习
为了更好地理解和掌握统计估计的方法,有一系列相关练习。以下是部分练习的介绍:
- 练习 6.1 :探索测试数据中未见过的 n - 元组的百分比,可通过改变以下因素进行研究:
- 模型的
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



