17、自然语言处理中的序列分割与树结构预测

自然语言处理中的序列分割与树结构预测

1. 序列分割模型概述

在序列分割任务中,有两种结构化模型:结构化感知机和结构化支持向量机(SVM)。对于这两种模型,给定一组训练数据,训练目标是确保黄金标准训练示例和非黄金输出之间存在得分差距。

1.1 训练目标

  • 结构化感知机 :训练目标是最小化某个目标函数。
  • 结构化SVM :同样是最小化相应的目标函数。

在上述两个目标函数的计算中,都需要进行解码过程来找到最违反得分约束的情况。与序列标注类似,感知机和SVM模型的解码过程与对数线性模型相同。与序列标注的相关公式相比,唯一的区别在于输入 - 输出结构到特征向量的映射。由于任务的内在结构差异,序列分割的特征上下文与序列标注不同,因此获取最违反约束的解码算法也与序列标注任务不同。

1.2 分段级特征的问题与解决方案

1.2.1 特征稀疏性

分段级特征对于序列分割很有用,因为它们提供了更广泛的上下文范围和关于输出结构的直接信息源。然而,它们也带来了两个潜在问题。第一个问题是特征稀疏性。以句法组块为例,一个可能的名词短语可能跨越几十个单词,使得可能的跨度数量成为一个开放集,这可能非常大。因此,对于某些任务和数据集,分段级特征可能非常稀疏。在定义组块级特征时必须小心,并根据特定任务和数据集凭经验验证其有效性,这个特征工程过程可能成本很高。

1.2.2 解码效率低下

较大特征上下文的第二个潜在问题是解码效率低下。如果没有对段大小的约束,使用段二

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值