8 基于上下文无关文法的句法分析
句法分析导引
以词为单位的分析技术:词语切分、形态分析、词类标注。
以句为单位的分析技术:句法分析。
以篇为单位的分析技术:指代分析。
句法分析关心句子的组成规律。
句子成分分析
句子是词的线性序列,但词和词之间结合的松紧程度并不一样。
句子在构造上具有层次性,较小的成分还可以进一步组成较大的成分。
不同性质的成分可以有不同的句法功能和分布,可以区分成不同的类型。
短语
英语中的短语:名词性短语(NP),动词性短语(VP),介词短语(PP),形容词性短语。
汉语中的短语:名词性短语(np),动词小短语(vp),形容词性短语(ap),处所词性短语(sp),时间词性短语(tp),数量短语(mp),介词短语(pp)。
句法知识的形式化
上下文无关文法(CFG)是最常用的句法知识形式化工具。
为了便于计算机处理自然语言,计算语言学研究人员提出了许多形式语法系统(grammar formalism),例如:功能合一语法(FUG)、词汇功能语法(LFG)、中心词驱动的短语结构语法(HPSG)等。在这些语法形式化系统中,上下文无关文法是一个核心组成部分。
许多句法分析算法都建立在上下文无关文法的基础上。
上下文无关文法
作为生成装置生成语言中的句子。
作为识别装置判断句子是否合法。
作为分析装置产生给定句子的句法结构。
句法分析
句法分析的任务是对给定自然语言句子,分析并得到其句法结构。
句法结构通常表示为句法树。
人工语言的句法分析
人工语言的特点是无二义性。
存在快速有效的语法分析方法:LL分析法,LR分析法。
自然语言的句法分析
歧义:是指同一个句子,按照指定的文法,会产生多种分析结果。
由于句