Semi-supervised Learning

最新推荐文章于 2024-03-29 08:30:00 发布

原创最新推荐文章于 2024-03-29 08:30:00 发布 · 805 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍半监督学习中的两种方法：self-training与active learning。当标注数据稀缺时，这两种方法能够有效利用未标注数据提高模型准确性。self-training通过迭代地将模型最自信的预测结果加入到标注集中来增强模型；而active learning则选择模型最不确定的数据进行人工标注。

简单聊一下Semi-supervised Learning(SSL)分类时, 两个可用的方法: self-training与active learning.
当我们有标注的样本很少时, 训练的模型会不够准确. 这时我们可以尝试利用一下无标注的样本.

Self-training

用Labeled set训练模型.
用模型预测Unlabeled set.
将预测结果中置信度最大的一个instance从Unlabeled set移动到Labeled set. 其label当然就是预测的这个结果.
Goto 1 直到所有instance都移动到Labeled set中.

Active learning

用Labeled set训练模型.
用模型预测Unlabeled set.
从预测结果中, 选取最不确信的一个(批), 拿来人工标注. 并移动到Labeled set中.
Goto 1 直到所有instance都移动到Labeled set中.

其中第2步, 如何选择一批合适的instance来标注呢? 选最不确信(决策边界附近)的instance是一个方法. 同时也有很多其他方法, 比如训练多个模型, 选多个模型分歧最大的instance; 选取能使模型变化最大(或loss下降最多)的instance等. 详细总结可见Wikipedia.

参考资料:
Wikipedia: Active learning