前言
本文记录和学习self training相关的知识。
1.算法

上面是self-training的算法流程图,简单解释一下:
1,将初始的有标签数据集作为初始的训练集(Xtrain,ytrain)=(Xl,yl)(Xtrain,ytrain)=(Xl,yl),根据训练集训练得到一个初始分类器CintCint。
2,利用CintCint对无标签数据集XuXu中的样本进行分类,选出最有把握的样本(Xconf,yconf)(Xconf,yconf)
3,从XuXu中去掉(Xconf,yconf)(Xconf,yconf)
4,将(Xconf,yconf)(Xconf,yconf)加入到有标签数据集中,(Xtrain,ytrain)←(Xl,yl)∪(Xconf,yconf)(Xtrain,ytrain)←(Xl,yl)∪(Xconf,yconf)
5,根据新的训练集训练新的分类器,重复步骤2到5直到满足停止条件(例如所有无标签样本都被标记完了)
最后得到的分类器就是最终的分类器。
版权声明:这是优快云博主「tyh70537」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.youkuaiyun.com/tyh70537/article/details/80244490

本文深入探讨了Self Training的学习过程,包括算法流程、伪标签的概念及其有效性。通过利用有标签数据训练初始分类器,对无标签数据进行预测并筛选出最自信的样本,不断迭代更新训练集,直至达到停止条件。伪标签方法利用最大预测概率作为类别,有助于熵最小化,符合半监督学习的决策边界和熵最小化假设,旨在提高模型的泛化性能。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



