基于远监督的多实例学习
1. 引言
在现代机器学习中,多实例学习(Multi-instance Learning, MIL)和远监督(Distant Supervision, DS)是两种重要的方法,它们分别解决了不同场景下的数据标注难题。MIL允许我们将标签赋予一组实例(称为“袋”),而不是单个实例;而DS则利用现有知识库和大规模未标注文本语料库自动生成训练数据,减少了人工标注成本。当这两种方法结合起来时,可以有效地应对复杂任务,如信息抽取和关系分类。
2. 多实例学习概述
2.1 定义
多实例学习是一种弱监督学习形式,其中每个训练样本由一组实例(称为“袋”)组成,而不是单一实例。每个袋都有一个整体标签,但袋内的单个实例本身没有明确的标签。例如,在图像分类任务中,一张图片可能包含多个对象(即多个实例),而整张图片被标记为某个类别(即袋的标签)。
2.2 与单实例学习的区别
- 标签粒度 :单实例学习中每个实例都有自己的标签,而在MIL中只有袋有标签。
- 数据表示 :单实例学习通常处理向量化的特征,而MIL需要处