远监督中的多示例学习模型
1. 引言
在关系抽取任务中,远监督(Distant Supervision)是一种常用的技术,它利用现有的知识库和大规模文本语料库自动生成训练数据。然而,远监督方法通常会引入噪声,导致模型性能下降。为了解决这个问题,多示例学习(Multi-instance Learning)成为一种有效的解决方案。多示例学习是一种弱监督学习方法,其中标签是赋予一组实例(即“袋”)而不是单个实例。本文将深入探讨多示例学习模型在远监督环境下的应用和发展。
2. 多示例学习的基本概念
多示例学习是一种弱监督学习问题,其中标签被赋予一组实例(称为“袋”),而不是单个实例。每个袋包含多个实例,这些实例共享相同的标签。例如,在关系抽取任务中,每个实体对被视作一个袋,袋中的句子包含该实体对的提及,但不一定表达两者之间的关系。多示例学习的目标是从这些袋中学习到有意义的关系。
2.1 多示例学习的假设
多示例学习通常基于以下假设:
- 至少一个正例假设 :如果一个袋被标记为正类,则该袋中至少有一个实例是正例。
- 所有负例假设 :如果一个袋被标记为负类,则该袋中的所有实例都是负例。
这些假设在远监督环境中尤为重要,因为远监督生成的标签可能存在噪声。通过多示例学习,可以缓解这种噪声的影响。
3. 远监督的基本概念
远监督是一种利用现有知识库和大规模文本语料库自动生成训练数据的方法。具体来说,远监督通过将知识库中的关系与文本中的实体对进行对齐,自动生成训练样本。例如,Riedel等人[