1.词汇获取的目的是补充词典(这里指用于机器学习的词典)的不足之处,由于词汇含义不断在新增和变化,词典无法全面及时地覆盖所有含义和用法,因此词汇获取对基于统计的自然语言处理非重要。
之前介绍的固定搭配识别也是词汇获取的一种,除此之外词汇获取相关问题还包括动词子范畴框架、附着歧义,选择倾向和语义相似性等(本书主要讲了这4种)。
2. 词汇系统的评价标准。最常用的两个指标是 精确率 和 召回率。
精确率 = 返回的目标答案数/返回的所有答案数
召回率 = 返回的目标答案数/所有的目标答案数
最典型的例子就是网页搜索,比如网上共有100个网页包含你想要的信息,搜索返回了70个网页(有可能来自这100个网页之外),而这其中又有10个网页不包含你想要的信息,那么
精确率 = 60/70,召回率 = 60/100
这两个指标应该是衡量信息处理和检索系统性能的通用标准,不知道为什么专门放在第8章介绍。