机器学习中的依赖关系挖掘与标签细化算法研究
在机器学习领域,处理数据中的依赖关系以及应对数据分布变化是两个关键问题。本文将介绍两种相关的方法:一种是用于选择和利用非局部依赖关系的松弛标记法,另一种是用于迁移学习的桥接细化算法。
1. 松弛标记法:挖掘非局部依赖关系
在序列标注任务中,考虑数据中的依赖关系对于提高分类性能至关重要。为了评估不同方法的性能,我们使用了几种基线模型:
- 最大熵分类器 :这是一种局部分类器,不考虑标签之间的依赖关系。
- 标准线性链条件随机场(CRF) :只考虑局部和顺序依赖关系。
- 基于语法的提取方法 :可以考虑长距离依赖关系。
基于语法的提取方法的原理是,首先使用最大熵分类器估计每个观察的标签概率分布,然后使用概率上下文无关文法推断树结构。预测的标签序列由得分最高的树的叶子节点的标签定义。该方法的推理复杂度为 $O(n^3)$,而 CRF 和我们提出的方法的复杂度为 $O(n)$。
实验结果(见表 1)表明,考虑依赖关系非常重要。在所有任务中,局部分类器的得分总是最差的。这是因为在许多情况下,单个观察可能不包含足够的信息来选择正确的标签,因此需要考虑上下文。利用非局部依赖关系也非常有帮助。在数据提取任务中,我们提出的方法和基于语法的方法明显优于 CRF。在分块任务中,CRF 的性能略好,但我们的方法在学习和推理方面都比 CRF 快得多。基于语法的方法和我们的方法取得了相似的性能,这表明我们提出的方法能够选择相关的依赖关系。此外,我们的方法的推理速度比基于语法的方法快一个数量级。
超级会员免费看
订阅专栏 解锁全文
8743

被折叠的 条评论
为什么被折叠?



