前言
该方法主要应用于半监督问题,是一种通过有监督样本训练得到的模型,来对无标签数据进行利用的方式。
思路
1.使用思路:
(1)使用有标签数据A训练一个有监督模型。
(2)利用该模型对无标签数据进行预测,得到预测概率值。
(3)基于无标签样本概率值 按照一定阀值进行 真值样本抽取,生成新的有标签数据B。
(4)基于A和B重新训练模型C,并使用测试集验证模型小效果。
tips:可以发现,该方法主要适用于分类任务,因为我们需要根据一定概率置信值进行样本的筛选。
以上的步骤,可以对应如下的图:
2.该方法的有效性可以从两个角度说明:
(1) 从数据分布上进行思考,原始的有标签数据较少,所以存在样本分布有偏,不全面的问题,而无标签样本中存在大量的、完善的数据样本分布情况,所以当我们用偏分布数据训练的模型 对无标签数据做预测时,可以在一些共有特征分布上提取一些高置信样本,从而拿到了一些标签样本,进行样本合并后可以起到一定对 数据分布情况补充的效果,提升模型的分布学习能力。
当然,因为是依靠 有标签样本训练的模型为无标签样本打标签,所以有标签样本最好是分布无偏的数据,能够在问题样本空间中均匀分布,这样的样本能有更好的聚类效果,不然较有偏的数据所聚类打标的数据依然是有偏的。
(2)另一方面,在论文《Pseudo-Label : The Simple