多示例分类与模糊粗糙集理论的应用
1 引言
在机器学习领域,多示例学习(MIL)是一种处理复合数据样本的特殊形式。与传统分类任务中每个观察结果由单一特征向量描述不同,MIL中的每个观察结果(称为一个包)对应一组实例,每个实例有自己的特征向量。包内的实例可以代表同一对象的不同部分或替代表示。MIL最初由Dietterich等人在其开创性论文中提出,该领域已经发展成为一个成熟的机器学习范式,并有许多现实世界的应用。
2 多示例学习的基本概念
2.1 多示例学习的起源
多示例学习的起源可以追溯到Dietterich等人提出的一个玩具问题——员工钥匙链。假设每位员工都有一串钥匙,其中一把能打开部门的供应室门。然而,不同员工拿到的供应室钥匙是不一样的。有些钥匙只能打开实际的供应室,而有些则可以用来打开其他房间(例如食堂)。锁匠的任务是根据所有员工的钥匙链推断出能够打开供应室门的钥匙形状,而不需要员工实际展示哪一把钥匙能打开这扇门。因此,锁匠只知道每串钥匙中有一把能打开所需的门,但不知道是哪一把。
2.2 多示例数据的正式描述
多示例学习的形式化定义如下:
符号 | 描述 |
---|---|
( X ) | 输入空间 |