解决类别标签缺失问题的多示例学习方法
1. 引言
在监督学习中,传统的算法依赖于标记的训练数据,其中准确的标签对于分类器的学习至关重要。然而,在现实世界的某些场景中,可能无法获得实例级别的准确类别标签,或者获取这些标签的成本过高。这时,问题自然地被表述为对实例群体(包)进行分类。为了应对这种情况,多示例学习(MIL,Multi-Instance Learning)算法应运而生,这类算法中的标签是在包级别而不是实例级别上提供的。
2. 多示例学习的必要性
2.1 现实世界中的挑战
在许多实际应用中,获取精确的类别标签可能是昂贵或不切实际的。例如,在医学图像分析中,专家可能无法全面准确地标记图像中的所有异常,或者标记可能是物体内部的一个像素,或一个近似边界框,而不是完美的轮廓。此外,专家可能简单地将图像/患者标记为异常,而不标记出异常的具体区域。这些情况在标签中引入了一些噪声,使得传统的监督学习方法难以适用。
2.2 多示例学习的应用
多示例学习适用于许多问题,特别是在计算机辅助诊断(CAD)和图像分类领域。例如,D. Wu和Boyer(2009)在CAD中应用了MIL,Fung等人(2007)也在图像分类中使用了MIL。MIL在处理标签缺失或噪声标签的问题上展现了独特的优势。
3. 多示例学习的基本概念
3.1 定义
多示例学习(MIL)是指在一个包中包含多个实例,而包的标签反映了包中是否存在正例。具体来说,如果一个包中至少有一个正例,则该包被标记为正类;否则,标记为负类。包中的实例标签通常是未知的。
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



