多示例学习模型与远监督
1. 引言
在关系抽取任务中,远监督(Distant Supervision)和多示例学习(Multi-instance Learning)是两种重要的技术手段。远监督通过将知识库中的实体对与大量未标注文本对齐,自动生成大规模的训练数据,从而减少了人工标注的成本。然而,这种方法也带来了噪声问题,因为并非所有包含特定实体对的句子都能正确表达它们之间的实际关系。多示例学习则是一种弱监督学习形式,其中标签是赋予一组实例(称为“袋”),而不是单个实例。结合这两者的优点,可以有效提高关系抽取任务的效果。
2. 多示例学习模型
2.1 定义与概念
多示例学习是一种弱监督学习问题,其中标签被赋予一组实例(即“袋”),而不是单个实例。在关系抽取任务中,每个实体对在知识库中标识了一个句子的集合(袋子),这些句子包含该实体对的提及,但不一定直接表达了它们之间的关系。具体来说:
- 实体对 :在知识库中,每对实体(如“北京”和“中国”)对应一个袋子。
- 句子集合 :袋子中的每个句子都包含了这对实体的提及,但不一定表达了它们之间的关系。
- 标签 :如果实体对之间存在某种关系,则整个袋子被赋予一个标签。
2.2 模型架构
多示例学习模型通常采用以下几种架构:
- 基于实例的模型 :直接对每个句子进行分类,然后通过投票或其他聚合方法确定袋子的标签。
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



