【NLP】

语法解析概览
本文介绍了一种基于概率分布的上下文无关语法解析方法,通过定义非叶子节点与叶子节点的标注,结合规则集与语法树的起始标注,实现对句子语法结构的有效解析。文章还讨论了语法解析中的训练与识别过程。

一 语法解析

  • 语法的存储表达方式:
    1 (S (NP (N Boeing)) (VP (V is) (VP (V located) (PP (P in) (NP (N Seattle))))))。
    2 S代表句子
    3 NP,VP,PP分别是名词短语,动词短语,介词短语
    4 S,V,P分别是名,动,介词
  • 语法解析的算法:

如何表示一个句子中的语法,定义如下一些规则及变量

  1. 1)N表示一组非叶子节点的标注,例如{S、NP、VP、N...}
    
    2)Σ表示一组叶子结点的标注,例如{boeing、is...}
    
    3)R表示一组规则,每条规则可以表示为X->Y1Y2...Yn,X∈N,Yi∈(N∪Σ)
    
    4)S表示语法树开始的标注

    如上表示右边语法树 

如上叫做上下文无关的语法,从这些语法定义可以推导出这个句子的语法格式。

可是这种定义有个问题,有些单词有多词性,同时规则中,NP-PP PP,这种,第二个pp到底修饰PP还是修饰NP未知。

     由此用概率分布的上下文无关语法。给每条规则给出一个概率。由此得到概率和最大的结果就是语法树的最佳结果。

  • 语法解析的方法: 训练,识别
  • 训练阶段:从一个大语料库,一般是penn treebank这种类型,其中已经定义了语法格式,从中提取语法规则,统计每种规则的概率。
  • 识别阶段(预测阶段):对于要解析的句子,根据已经训练模型中的参数。给出语法树(暴力遍历,动态规划。待深解)

 

转载于:https://www.cnblogs.com/lijieqiong/p/5181873.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值