深入理解多示例分类器中的模糊与模糊粗糙集方法
1 引言
多示例学习(Multi-instance Learning, MIL)是一种特殊的机器学习范式,它处理的是由一组实例组成的复合数据样本。与传统的单示例分类不同,MIL中的每个观察结果(称为一个包)由一组特征向量描述。包内的实例可以代表同一对象的不同部分或替代表示。MIL领域最初由Dietterich等人在1997年的论文中提出,至今已成为一个成熟的机器学习分支,并应用于多个现实世界的场景中。
在多示例分类问题中,目标是根据从标记的包训练集中学到的分类模型来预测之前未见过的包的类别标签。与传统的单示例分类相比,区别在于学习过程中使用的数据格式。一个包是一组实例的集合,学习者需要处理这些复合对象,并从中提取足够的信息。
2 多示例学习的基本概念
2.1 多示例数据的起源
多示例学习的起源可以追溯到一个玩具问题:员工钥匙链。每位员工都有一串钥匙,其中一把能打开部门的供应室门。然而,不同员工拿到的供应室钥匙是不一样的。有些钥匙只能打开实际的供应室,而有些则可以用来打开其他房间(例如食堂)。锁匠的任务是根据所有员工的钥匙链推断出能够打开供应室门的钥匙形状,而不需要员工实际展示哪一把钥匙能打开这扇门。因此,锁匠只知道每串钥匙中有一把能打开所需的门,但不知道是哪一把。