伪标签技术

最新推荐文章于 2024-03-18 10:41:09 发布

马飞飞

最新推荐文章于 2024-03-18 10:41:09 发布

阅读量1.8k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/maqunfi/article/details/107702388

版权

前言

该方法主要应用于半监督问题，是一种通过有监督样本训练得到的模型，来对无标签数据进行利用的方式。

思路

1.使用思路：

（1）使用有标签数据A训练一个有监督模型。

（2）利用该模型对无标签数据进行预测，得到预测概率值。

（3）基于无标签样本概率值按照一定阀值进行真值样本抽取，生成新的有标签数据B。

（4）基于A和B重新训练模型C，并使用测试集验证模型小效果。

tips：可以发现，该方法主要适用于分类任务，因为我们需要根据一定概率置信值进行样本的筛选。

以上的步骤，可以对应如下的图：

2.该方法的有效性可以从两个角度说明：

（1）从数据分布上进行思考，原始的有标签数据较少，所以存在样本分布有偏，不全面的问题，而无标签样本中存在大量的、完善的数据样本分布情况，所以当我们用偏分布数据训练的模型对无标签数据做预测时，可以在一些共有特征分布上提取一些高置信样本，从而拿到了一些标签样本，进行样本合并后可以起到一定对数据分布情况补充的效果，提升模型的分布学习能力。

当然，因为是依靠有标签样本训练的模型为无标签样本打标签，所以有标签样本最好是分布无偏的数据，能够在问题样本空间中均匀分布，这样的样本能有更好的聚类效果，不然较有偏的数据所聚类打标的数据依然是有偏的。

（2）另一方面，在论文《Pseudo-Label : The Simple

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。