伪标签技术

前言

该方法主要应用于半监督问题,是一种通过有监督样本训练得到的模型,来对无标签数据进行利用的方式。

思路

1.使用思路:

(1)使用有标签数据A训练一个有监督模型。

(2)利用该模型对无标签数据进行预测,得到预测概率值。

(3)基于无标签样本概率值 按照一定阀值进行 真值样本抽取,生成新的有标签数据B。

(4)基于A和B重新训练模型C,并使用测试集验证模型小效果。

tips:可以发现,该方法主要适用于分类任务,因为我们需要根据一定概率置信值进行样本的筛选。

以上的步骤,可以对应如下的图:

 

2.该方法的有效性可以从两个角度说明:

(1) 从数据分布上进行思考,原始的有标签数据较少,所以存在样本分布有偏,不全面的问题,而无标签样本中存在大量的、完善的数据样本分布情况,所以当我们用偏分布数据训练的模型 对无标签数据做预测时,可以在一些共有特征分布上提取一些高置信样本,从而拿到了一些标签样本,进行样本合并后可以起到一定对 数据分布情况补充的效果,提升模型的分布学习能力。

当然,因为是依靠 有标签样本训练的模型为无标签样本打标签,所以有标签样本最好是分布无偏的数据,能够在问题样本空间中均匀分布,这样的样本能有更好的聚类效果,不然较有偏的数据所聚类打标的数据依然是有偏的。

(2)另一方面,在论文《Pseudo-Label : The Simple

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值