主动学习何时有效?
1. 引言
主动学习(AL)是分类领域的一个重要子领域,它能让学习系统智能地选择未标记的示例进行标记,从而提升分类器的性能。在实际应用中,标记数据往往稀缺或昂贵,这就凸显了主动学习的必要性。比如在医学图像诊断中,医生标记图像需要耗费大量时间,但未标记的图像却大量存在且成本较低。
当前,关于主动学习有两个核心问题尚未解决:主动学习在哪些场景下有效?它能带来多大的帮助?解决这些问题有助于研究人员进一步探究主动学习的工作原理和原因。
此前的研究存在矛盾之处,有些研究显示主动学习难以超越随机选择这一简单基准,且主动学习方法和随机选择的结果都具有较高的变异性,这使得比较变得困难。同时,既有显示积极结果的研究,也有显示消极结果的研究,但这些研究都未能全面概述主动学习的有效性和效果程度。
因此,我们进行了一项全面的主动学习模拟研究,系统地改变多个主动学习因素,并进行统计分析。同时,我们还提出了一种评估方法,以解决主动学习性能评估中的复杂问题。由于实际应用中通常缺乏用于评估性能的测试数据集,本研究聚焦于模拟数据,以便评估主动学习的性能。
2. 背景
2.1 分类
每个分类示例都有特征 $x_i$ 和对应的标签 $y_i$,用 ${x_i, y_i}$ 表示。其中,$x_i$ 是 $p$ 维特征向量,标签 $y_i \in {C_1, C_2, …, C_k}$。数据集由 $n$ 个示例组成,记为 $D = {x_i, y_i}_{i = 1}^{n}$。分类器是一种算法,用于预测未见过示例的类别,目标是在某些性能指标上实现良好的泛化。
超级会员免费看
订阅专栏 解锁全文
2394

被折叠的 条评论
为什么被折叠?



