概率解析:模型、方法与发展
1. 基于依赖的模型
在解析过程中,有一系列问题需要考虑,例如:
- 当前节点或其左右节点的 X 是什么?
- 当前节点的第一或第二最左/右子节点的 X 是什么?
- 节点有多少子节点?
- 节点在单词中的跨度是多少?
- 对于标签,前两个词性标签是什么?
解析器可以探索不同的推导序列,从而在有最佳预测信息的地方开始工作,解析的概率通过对推导进行求和得到。
1.1 SPATTER 系统
SPATTER 系统有一些奇特的特性,例如扩展特性。总体而言,它是一个庞大而复杂的系统,训练和运行需要大量的计算机算力,尤其是决策树训练和平滑算法的计算量很大。但不可否认它取得了成功,它表明可以从数据中自动诱导出一个成功的统计解析器,在处理自然文本方面明显优于现有的手工解析器。
1.2 Collins(1996)模型
Collins(1996)提出了一种基于依赖的词汇化框架,将宾州树库中的单元视为块。句子被表示为其单词和其他词的集合,它们之间存在依赖关系。例如:[The woman] in [the next row] yawned.
标记是一个独立的过程,由 Ratnaparkhi(1996)的最大熵标记器执行。概率估计使用了 Church(1988)识别间隙的思想,每个单词之间的间隙被分类为名词短语的开始或结束、两个词之间或以上都不是。然后,从某个位置开始长度为的名词短语的概率根据预测的间隙特征给出。
对于依赖模型,Collins 用每个短语的中心词替换短语并去除标点符号得到简化句子,但标点符号用于引导解析。依
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



