机器学习常识 15: 主动学习

主动学习是一种在有限的标签资源下优化模型性能的方法。其核心是通过选择最具代表性和不确定性的样本请求专家标注,例如在冷启动场景中选择部分样本进行预标注。这种方法可以视为半监督学习的一种形式,适用于标签获取困难的情况。主动学习策略包括基于聚类和利用SVM识别不确定样本等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要: 主动学习是人机交互支撑的学习场景.

1. 基本思想

  • 动机. 要想获得良好的学习效果, 通常需要大量的带标签数据. 在有些领域, 标签易于获取; 但在另外的领域, 打标签是专家的事情, 耗时耗力. 能不能使用更少的标签, 训练良好的学习器呢?
  • 基本要求. 交互式的学习场景. 即: 人类专家根据机器的指定, 对相应数据打标签.
  • 归属. 可以看作半监督学习的一种, 因为训练数据的一部分提供了标签.

2. 主动学习的几种具体场景

  • 冷启动封闭世界主动学习. 有 500 个样本, 先都没有给标签. 现在专家答应给其中 100 个打标签, 但其它 400 个需要机器预测.
  • 冷启动开放世界主动学习. 有 500 个样本, 先都没有给标签. 现在专家答应给其中 100 个打标签. 机器需要对另外的一些样本 (未知样本) 进行预测.
  • 一般情况下的封闭世界主动学习. 有 500 个样本, 其中 20 个标签已知. 现在专家答应给 80 个打标签, 但其它 400 个需要机器预测.
  • 一般情况下的开放世界主动学习. 自己补上.

3. 主动学习的核心问题

哪些样本的标签更有价值?

  • 代表性强的样本. 把数据进行聚类, 聚类中心的样本具有良好的代表性. 其它样本很可能与它有相同的标签. 用这种思想可以设计出"基于聚类的主动学习方法".
  • 不确定性强的样本. 有些样本有墙头草的潜质, 难于界定正负. 如果知道它们的标签, 就可以使用 SVM 进行分类, 相应地, 这次样本可能成为支撑向量 (support vector). 可以去复习一下 机器学习常识 12: SVM.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值