NLP | 自然语言处理 - 考虑词汇的语法解析(Lexicalized PCFG)

本文探讨了自然语言处理中的语法解析改进,重点介绍词汇化的概率上下文自由语法(Lexicalized PCFG)。内容涵盖定义及参数估计方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

语法解析的改进


NLP | 自然语言处理 - 语法解析(Parsing, and Context-Free Grammars) 这一章我们讲到了上下文无关语法(PCFG - Probabilistic Context-Free Grammar)的解析方法。PCFG在许多情况下并没有考虑词的顺序关系,例如NN NN(Milk Cup)这样的情况两个名词被等价的对待,因为也可能导致语法解析的二义性。为了获得更好的解析正确率,我们将在PCFG的基础上做一些改进。

对于每一条规则,我们将添加一个规则的首要词(head)。例如 VP => VP PP,VP就是这个规则的首要词。那么首要词如何来确定呢?其实我们可以通过我们对英语语法的理解来制定一些规则来确定首要词。

例如,对名词短语 (NP)而言,可以包含如下规则(规则按顺序匹配,命中是停止):
1)当规则包含NN, NNS或者NNP时,选择最右侧的NN, NNS或者NNP作首要词,例如the milk cup
2)当规则包含一个NP时,选择最左侧的NP,例如 (NP the car) (PP in (NP the street))
3)当规则包含一个JJ时,选择最右侧的JJ,例如the old
4)当规则包含一个CD时,选择最右侧的CD,例如  1000
5)选择最右侧的元素

对于动词短语(VP)而言,可以保护如下规则(规则按顺序匹配,命中是停止):
1)当规则包含Vi、Vt时,选择最左侧的Vi或者Vt,例如 go home
2)当规则包含VP时,选择最左侧的VP,例如 (VP go home) (to (VP have lunch))
3)选择最左侧的元素

有了首要词(header)这个概念以后,我们的语法树将可以被表示得更加的精细。但是显然,随之而来的计算量也将更大,同时对训练集数据量的要求也更多。


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值