在前面章节中接触到的大部分都是监督学习方法以及无监督学习方法(聚类),这章讲述的半监督学习,我个人理解,应该是存在一部分标记样本,但是又不足以训练出一个良好性能的学习器,因此采用将其它未标记样本加入其中进行训练,这样的学习称为半监督学习。
对半监督的理解可参阅http://blog.youkuaiyun.com/yhdzw/article/details/22733371
1、未标记样本
让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。
纯半监督学习
直推学习
2、生成式方法
生成式方法是直接基于生成式模型的方法。此类方法假设所有数据(无论是否有标记)都是由同一个潜在的模型“生成”的。这个假设使得我们能通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的标记则可看作模型的缺失参数,通常可以基于 EM 算法进行极大似然估计求解。此类方法的区别主要在于生成式模型的假设,不同的模型假设将产生不同的方法。
3、半监督SVM
4、图半监督学习
给定一个数据集,我们可以将数据集映射为一个图,数据集中每个样本对应于图中一个结点,若两个样本之间的相似度很高(或相关性很强),则对应的结点之间存在一条边,边的强度正比于样本之间的相似度(或相关性)。我们可以将有标记样本所对应的结点想象为染过色,而未标记样本所对应的结点尚未染色。于是,半监督学习就对应于“颜色”在图上的扩散或传播的过程。由于一个图对应了一个矩阵,这就使得我们能基于矩阵运算来进行半监督学习算法的推导与分析。