自然语言处理中的词义消歧与词汇获取
词义消歧概述
词义消歧是自然语言处理中的一个关键任务。计算机在处理具有歧义的词汇时面临挑战,因为孤立的歧义词汇对计算机而言往往无用。研究表明,在歧义词汇两侧约50个单词的上下文中存在额外的有用信息,甚至在数千个单词的大范围内也能检测到与词义区分相关的信息。
不同词性的词汇,其适用的信息类型和程度有所不同。对于动词,其论元(主语和宾语)是进行消歧的关键,这凸显了局部信息的重要性。而许多名词具有主题上不同的词义,如“suit”和“bank”,此时更广泛的上下文可能更有助于消歧。
目前,词义消歧仍有大量研究工作待开展。尤其需要在具有代表性的歧义词汇样本上对算法进行评估,但目前很少有研究人员进行这方面的努力。只有通过更全面的评估,才能充分了解本章介绍的消歧算法的优缺点。
词义消歧方法
- 监督式消歧方法
- k近邻法(k nearest neighbors) :也称为基于记忆的学习。该方法在处理稀疏数据时具有优势,相关研究如Dagan等人(1994,1997b)的工作。此外,Ng和Lee(1996)以及Zavrel和Daelemans(1997)也有相关研究。
- 对数线性模型(loglinear models) :可将可分解模型视为朴素贝叶斯的推广。与朴素贝叶斯将所有特征视为独立不同,可分解模型将特征分组为相互依赖的子集,仅假设不同子集之间的特征相互独立。Bruce和Wiebe(1994)将可分解模型应用于消歧,取得了良好的效果。 <
超级会员免费看
订阅专栏 解锁全文
995

被折叠的 条评论
为什么被折叠?



