词汇获取:自然语言处理的关键领域
1. 词汇获取概述
词汇获取旨在通过分析大型文本语料库中单词的出现模式,开发算法和统计技术,以填补现有机器可读词典中的空白。除了搭配之外,还有许多词汇获取问题,如选择偏好(例如,动词“eat”通常以食物作为直接宾语)、次范畴化框架(例如,“contribute”的接受者用“to”引导的介词短语表示)和语义分类(词典中未涵盖的新单词的语义类别是什么)。
自然语言的生产力使得机器可读词典无法完全涵盖单词的所有属性。我们不断创造新单词和旧单词的新用法,即使能编纂出涵盖当前语言的词典,也会在几个月内变得不完整,这就是词汇获取在统计自然语言处理中如此重要的原因。
词汇和词库的定义有助于我们理解词汇获取的范围。词库可以被看作是一种扩展的、计算机可读的词典,但传统词典是为人类用户编写的,缺乏定量信息。因此,统计自然语言处理中词汇获取的一个重要任务是用定量信息扩充传统词典。此外,词汇信息和非词汇信息之间没有明确的界限,例如介词短语附着的歧义问题可以通过查看动词和名词的词汇属性来解决。
2. 评估指标
在自然语言处理中,使用更严格的标准来评估系统性能是一个重要的发展。常用的评估指标包括精确率、召回率、F值、准确率和错误率等。
精确率是指所选项目中正确项目的比例,召回率是指目标项目中被选中的比例。在信息检索等应用中,精确率和召回率通常可以进行权衡,这种权衡可以用精确率 - 召回率曲线表示。为了综合评估性能,常使用F值,它是精确率和召回率的加权调和平均值。
准确率和错误率虽然直观,但在很多情况下不是很好的评估指标,因为在大多数问题中,非目标、未选择的项目数量巨大,会掩盖其他重要数字。而
超级会员免费看
订阅专栏 解锁全文
2234

被折叠的 条评论
为什么被折叠?



