自然语言处理中的序列分割与树结构预测
1. 序列分割模型概述
在序列分割任务中,有两种结构化模型:结构化感知机和结构化支持向量机(SVM)。对于这两种模型,给定一组训练数据,训练目标是确保黄金标准训练示例和非黄金输出之间存在得分差距。
1.1 训练目标
- 结构化感知机 :训练目标是最小化某个目标函数。
- 结构化SVM :同样是最小化相应的目标函数。
在上述两个目标函数的计算中,都需要进行解码过程来找到最违反得分约束的情况。与序列标注类似,感知机和SVM模型的解码过程与对数线性模型相同。与序列标注的相关公式相比,唯一的区别在于输入 - 输出结构到特征向量的映射。由于任务的内在结构差异,序列分割的特征上下文与序列标注不同,因此获取最违反约束的解码算法也与序列标注任务不同。
1.2 分段级特征的问题与解决方案
1.2.1 特征稀疏性
分段级特征对于序列分割很有用,因为它们提供了更广泛的上下文范围和关于输出结构的直接信息源。然而,它们也带来了两个潜在问题。第一个问题是特征稀疏性。以句法组块为例,一个可能的名词短语可能跨越几十个单词,使得可能的跨度数量成为一个开放集,这可能非常大。因此,对于某些任务和数据集,分段级特征可能非常稀疏。在定义组块级特征时必须小心,并根据特定任务和数据集凭经验验证其有效性,这个特征工程过程可能成本很高。
1.2.2 解码效率低下
较大特征上下文的第二个潜在问题是解码效率低下。如果没有对段大小的约束,使用段二
超级会员免费看
订阅专栏 解锁全文
1601

被折叠的 条评论
为什么被折叠?



