41、概率解析:模型、方法与发展

概率解析:模型、方法与发展

1. 基于依赖的模型

在解析过程中,有一系列问题需要考虑,例如:
- 当前节点或其左右节点的 X 是什么?
- 当前节点的第一或第二最左/右子节点的 X 是什么?
- 节点有多少子节点?
- 节点在单词中的跨度是多少?
- 对于标签,前两个词性标签是什么?

解析器可以探索不同的推导序列,从而在有最佳预测信息的地方开始工作,解析的概率通过对推导进行求和得到。

1.1 SPATTER 系统

SPATTER 系统有一些奇特的特性,例如扩展特性。总体而言,它是一个庞大而复杂的系统,训练和运行需要大量的计算机算力,尤其是决策树训练和平滑算法的计算量很大。但不可否认它取得了成功,它表明可以从数据中自动诱导出一个成功的统计解析器,在处理自然文本方面明显优于现有的手工解析器。

1.2 Collins(1996)模型

Collins(1996)提出了一种基于依赖的词汇化框架,将宾州树库中的单元视为块。句子被表示为其单词和其他词的集合,它们之间存在依赖关系。例如:[The woman] in [the next row] yawned.

标记是一个独立的过程,由 Ratnaparkhi(1996)的最大熵标记器执行。概率估计使用了 Church(1988)识别间隙的思想,每个单词之间的间隙被分类为名词短语的开始或结束、两个词之间或以上都不是。然后,从某个位置开始长度为的名词短语的概率根据预测的间隙特征给出。

对于依赖模型,Collins 用每个短语的中心词替换短语并去除标点符号得到简化句子,但标点符号用于引导解析。依

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值