概率句法分析相关知识解析
1. 概率上下文无关文法(PCFG)与依存语法的问题及解决思路
在处理罕见的扁平树结构时,PCFG 试图一次性估计局部树的概率,这会遇到问题。因为在未见过的数据中,可能会遇到从未见过的树结构。而依存语法则将问题分解,分别估计每个中心词 - 依存词关系的概率。
例如,如果从未见过图 12.5 (a) 中的局部树,在 PCFG 模型中,最多只能回退到某个默认的“未见过树”的概率。但如果将树分解为依存关系,并且之前见过类似的树,就有望对 (a) 中树的概率给出合理估计。不过,这需要做出一个重要的独立性假设,比如假设介词短语(PP)附着到动词短语(VP)的概率与 VP 中名词依存词的数量无关。但实际上,假设依存关系完全独立效果并不好,还需要一个系统来考虑依存关系的相对顺序。为解决这些问题,实际系统采用了各种方法来允许依存关系之间存在一定的条件关系。
2. 统计句法分析器的评估
2.1 评估方法概述
评估统计句法分析器的成功与否是一个重要问题。如果是开发语言模型,一种方法是测量模型相对于保留数据的交叉熵。但这与构建能找到特定解析树的概率句法分析器的目标不一致,因为交叉熵或困惑度仅衡量模型的概率弱等价性,而不考虑对其他任务重要的树结构。
2.2 基于任务的评估
人们对句子的特定解析树感兴趣,通常是为了构建信息提取、问答、翻译等系统。原则上,更好的评估方法是将解析器嵌入到这样的大型系统中,进行基于任务的评估。
2.3 基于标准解析结果的评估
为了简单和模块化,也可以将程序找到的解析结果与人工解析的句子结果(作为黄金标准)进行比较。评估
概率句法分析核心方法解析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



