35、自然语言处理中的词性标注与概率上下文无关文法

自然语言处理中的词性标注与概率上下文无关文法

一、信息检索与词性标注

在信息检索中,匹配用户查询和文档的最佳单位往往不是单个单词。像“United States of America”和“secondary education”这样的短语,如果拆分成单个单词,就会失去很多含义。通过应用标注和部分解析进行名词短语识别,并基于比单个术语更有意义的单位进行查询 - 文档匹配,可以提高信息检索性能。

相关的研究领域是短语归一化,即将术语的变体归一化并表示为相同的基本单位,例如“book publishing”和“publishing of books”。

此外,还有所谓的问答系统的研究。这些系统尝试通过返回合适的名词短语(如地点、人物或日期)来回答以问题形式表述的用户查询。例如,对于问题“Who [针对 President Kennedy 的相关问题]”,可能会用名词短语“Oswald”来回答,而不是像大多数信息检索系统那样返回文档列表。分析查询以确定用户正在寻找的实体类型以及它与问题中提到的其他名词短语的关系,需要进行标注和部分解析。

词性标注器的作用似乎是作为一个快速轻量级的组件,为许多应用任务提供足够的信息,而不是作为所有应用的理想预处理阶段。因为现在最好的词汇化概率解析器从无标注文本开始并自行进行标注,其性能比使用标注器作为预处理器更好。

二、词性标注的发展历程

2.1 早期发展

早期使用马尔可夫链对自然语言进行建模的工作在 20 世纪 60 年代初基本被放弃,部分原因是乔姆斯基对马尔可夫模型不足的批评,同时缺乏训练数据和计算资源来采用实证方法研究自然语言也可能是一个因素。乔姆斯基的批评仍然适用,马尔可夫链不

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值