句法分析
一,概述
任务:句法分析的任务就是识别句子的句法结构。
类型有:
- 短语结构分析
- 完全句法分析
- 局部句法分析
- 依存句法分析
二,短语结构分析
目标:实现高正确率、高鲁棒性、高速度的自动句法分析过程。
困难:自然语言中存在大量的复杂的结构歧义。
结构歧义中最常见的就是介词短语绑定歧义。
基本方法:
- 基于CFG规则的分析方法
- 线图分析法
- CYK算法
- …
- 基于PCFG的分析方法
1,线图分析法
三种策略:
- 自底向上
- 从上到下
- 从上到下和从下到上结合
自底向上的线图分析算法
2,CYK分析算法
三,概率上下文无关文法(PCFGs)
它也属于短语结构分析。
1,PCFG规则
形式:A→α,pA\rightarrow\alpha,pA→α,p
约束:∑αp(A→α)=1\sum_{\alpha}p(A\rightarrow \alpha)=1∑αp(A→α)=1
2,计算句法分析树概率的基本假设
- 位置不变性
- 上下文无关性
- 祖先无关性
四,PCFG的三个问题
- 给定句子W=w1w2…wnW=w_1w_2…w_nW=w1w2…wn和PCFG GGG,如何快速计算p(W∣G)p(W|G)p(W∣G)?
- 内向算法
- 外向算法
- 给定句子W=w1w2…wnW=w_1w_2…w_nW=w1w2…wn和PCFG GGG,如何快速地选择最佳句法结构树?
- Viterbi算法
- 给定句子W=w1w2…wnW=w_1w_2…w_nW=w1w2…wn和PCFG GGG,如何调节G的参数,使得p(W∣G)p(W|G)p(W∣G)最大?
- 内外向算法
五,短语结构分析方法评估
1,句法分析器的性能评测
- P
- R
- F1F_1F1
P=分析得到的正确的短语个数分析得到的所有的短语个数 P=\frac{分析得到的正确的短语个数}{分析得到的所有的短语个数} P=分析得到的所有的短语个数分析得到的正确的短语个数
R=分析得到的正确的短语个数标准树库中的短语个数 R=\frac{分析得到的正确的短语个数}{标准树库中的短语个数} R=标准树库中的短语个数分析得到的正确的短语个数
F1=2PRP+R F_1=\frac{2PR}{P+R} F1=P+R2PR
- 交叉括号数
六,依存句法分析
1,基本理论
T理论:
一切结构句法现象可以概括为关联(connexion)、组合(jonction)和转位(tanslation)这三大核心。句法关联建立起词与词之间的从属关系,这种从属关系是由支配词和从属词联结而成;动词是句子的中心,并支配其他成分,它本身不受其他任何成分的支配。
在依存句法理论中,依存是指词与词之间支配与被支配的关系,这种不对等的关系是有方向的,支配与被支配的成分分别被称为支配者与从属者。
支配者在有向弧的发出端,被支配者在箭头段。我们通常说被支配者依存于支配者。
依存语法的四条公理相当于依存图和依存树的四个形式约束:
- 单一父节点
- 连通
- 无环
- 可投射
2,依存语法的优势
- 简单,直接按照词语之间的依存关系工作,是天然词汇化的;
- 不过多强调句子中的固定词序,对自由语序的语言分析更有优势;
- 受深层语义结构的驱动,词汇的依存本质是语义的;
- 形式化程度较短语结构语法浅,对句法结构的表述更为灵活。
3,依存句法分析方法
依存句法分析的任务:就是分析出句子中所有词汇之间的依存关系。
建立一个依存句法分析器一般需要完成以下三部分工作:
- 依存句法结构描述:有向图方法和依存树方法。
- 分析算法的设计与实现
- 文法规则或参数学习
依存句法分析算法有以下四类:
- 生成式的分析方法
- 判别式的分析方法
- 决策式的(确定性的)分析方法:看例题。
- 基于约束满足的分析方法
详见PPT的P43。
七,依存句法分析器性能评价
- 无标记依存正确率
- 带标记依存正确率
- 依存正确率
- 根正确率
- 完全匹配率
详见PPT例子P43。
八,短语结构与依存结构的关系
短语结构可转换为依存结构。