半监督学习训练方式
参考:半监督学习理论及其研究进展概述。
根据发展历程,半监督学习可分为三个阶段:
1. 早期阶段
早期的半监督学习是初步探索无标记样本在传统监督学习模型中的价值[1],学习算法多事对传统算法进行改进,通过在监督学习中加入无标记样本来实现,这类算法有最大似然分类器、贝叶斯分类器、多层感知器、支持向量机等。其中有较大影响力的有半监督支持向量机 (Semi-supervised SVM, S3VM ) 和 协同训练 (Co-training)。
S3VM 的目标函数是在传统的支持向量机目标函数基础上, 增加了一个包含无标记样本的约束项来惩罚分类超平面穿过样本密集区域的情况。
原始的求解难度大,不实用,后来Joachims提出了基于标记切换的组合优化算法,使算法具有了实用意义。然后出现的算法:半正定规划算法,凹凸过程,延续法,梯度下降,确定性退火。
协同训练在自然语言处理中有着重要的应用。
[1] Classification rules in the unknown mixture parameter case: relative value of labeled and unlabeled samples, 1994.
2. 成熟阶段
这个时期的半监督学习主要包括混合模型,伪标记或自训练,图论半监督学习,流形半监督学习等。
最优模型:图论半监督学习
图论半监督学习需要首先构建一个图,图的节点集就是所有样本集( 包括标记样本和无标记 样 本),图的边是样本两两间的相似性( 通常使用高斯核函数作为相似性度量), 然后把分类问题看作是类别信息在图上由标记节点向无标记节点的扩散或传播过程。

本文详细介绍了半监督学习的发展历程,从早期的S3VM和协同训练,到成熟期的图论半监督学习和流形学习,再到深度学习时代的无监督特征学习、正则化约束类算法和生成式对抗网络。深度学习中,半监督学习通过拉普拉斯正则项、随机变换正则化和分类指示向量互斥原则等方式,实现了无标记样本的有效利用。
最低0.47元/天 解锁文章
5805

被折叠的 条评论
为什么被折叠?



