深入解析多示例学习中的模糊与粗糙集方法
1 引言
在机器学习中,多示例学习(Multi-instance Learning, MIL)是一种特殊的分类任务,它与传统单示例分类不同,其输入数据由多个实例组成的包(bags)构成。每个包包含若干个实例(instances),而包本身则被赋予一个整体的标签。多示例学习的应用场景非常广泛,例如药物活性预测、图像分类等。在这些场景中,包的标签反映了包内某个或某些实例的特性,而不仅仅是单个实例的属性。
2 多示例学习的基本概念
2.1 多示例数据的定义
多示例数据的正式定义源于Dietterich等人[127]的开创性工作。他们提出了一个玩具问题来解释多示例数据的本质:假设每个工作人员拥有一串钥匙,其中一把可以打开部门的供应室。不同的钥匙可能只能打开实际的供应室,也可能可以用于其他房间(如咖啡厅)。锁匠的任务是根据所有工作人员的钥匙链推断出打开供应室门所需的钥匙形状。这里的每个钥匙链就是一个包,每把钥匙就是一个实例,而供应室门能否被打开则是包的标签。
2.2 多示例假设
在多示例分类中,最常见的是二分类问题,即一个包要么是正类(positive),要么是负类(negative)。多示例假设指定了在什么条件下一个包被认为是正类。例如,标准多示例假设认为,只要包内至少有一个正实例,那么这个包就是正类。这适用于药物活性预测任务,因为只要分子的一个构象能够与目标结合,整个分子就被视为有效的。
除了标准假设外,还有其他更复杂的假设,如基于存在的、基于阈值的和基于计数的假设。这些假设允许包的标签不仅仅依赖于是否存在正实例,还可以考虑实例的数量或其他条件。例如,基于
超级会员免费看
订阅专栏 解锁全文
130

被折叠的 条评论
为什么被折叠?



