简单聊一下Semi-supervised Learning(SSL)分类时, 两个可用的方法: self-training与active learning.
当我们有标注的样本很少时, 训练的模型会不够准确. 这时我们可以尝试利用一下无标注的样本.
Self-training
- 用Labeled set训练模型.
- 用模型预测Unlabeled set.
将预测结果中置信度最大的一个instance从Unlabeled set移动到Labeled set. 其label当然就是预测的这个结果. - Goto 1 直到所有instance都移动到Labeled set中.
Active learning
- 用Labeled set训练模型.
- 用模型预测Unlabeled set.
从预测结果中, 选取最不确信的一个(批), 拿来人工标注. 并移动到Labeled set中. - Goto 1 直到所有instance都移动到Labeled set中.
其中第2步, 如何选择一批合适的instance来标注呢? 选最不确信(决策边界附近)的instance是一个方法. 同时也有很多其他方法, 比如训练多个模型, 选多个模型分歧最大的instance; 选取能使模型变化最大(或loss下降最多)的instance等. 详细总结可见Wikipedia.
本文介绍半监督学习中的两种方法:self-training与active learning。当标注数据稀缺时,这两种方法能够有效利用未标注数据提高模型准确性。self-training通过迭代地将模型最自信的预测结果加入到标注集中来增强模型;而active learning则选择模型最不确定的数据进行人工标注。
508

被折叠的 条评论
为什么被折叠?



