自然语言处理中的词性标注与概率上下文无关文法
一、信息检索与词性标注
在信息检索中,匹配用户查询和文档的最佳单位往往不是单个单词。像“United States of America”和“secondary education”这样的短语,如果拆分成单个单词,就会失去很多含义。通过应用标注和部分解析进行名词短语识别,并基于比单个术语更有意义的单位进行查询 - 文档匹配,可以提高信息检索性能。
相关的研究领域是短语归一化,即将术语的变体归一化并表示为相同的基本单位,例如“book publishing”和“publishing of books”。
此外,还有所谓的问答系统的研究。这些系统尝试通过返回合适的名词短语(如地点、人物或日期)来回答以问题形式表述的用户查询。例如,对于问题“Who [针对 President Kennedy 的相关问题]”,可能会用名词短语“Oswald”来回答,而不是像大多数信息检索系统那样返回文档列表。分析查询以确定用户正在寻找的实体类型以及它与问题中提到的其他名词短语的关系,需要进行标注和部分解析。
词性标注器的作用似乎是作为一个快速轻量级的组件,为许多应用任务提供足够的信息,而不是作为所有应用的理想预处理阶段。因为现在最好的词汇化概率解析器从无标注文本开始并自行进行标注,其性能比使用标注器作为预处理器更好。
二、词性标注的发展历程
2.1 早期发展
早期使用马尔可夫链对自然语言进行建模的工作在 20 世纪 60 年代初基本被放弃,部分原因是乔姆斯基对马尔可夫模型不足的批评,同时缺乏训练数据和计算资源来采用实证方法研究自然语言也可能是一个因素。乔姆斯基的批评仍然适用,马尔可夫链不
超级会员免费看
订阅专栏 解锁全文
519

被折叠的 条评论
为什么被折叠?



