多视图半监督学习算法解析
1. 多视图半监督学习概述
多视图半监督学习中有两种主要的方法类别。一种是不同视图的预测函数通过各自的目标进行训练,且相互改进,视图间通常有明确的信息流动;另一种是使用单一目标函数同时训练不同视图的预测函数,目标通常由各视图的损失函数和一个编码视图间期望共识的共正则化项组成。下面将依次介绍这两类算法。
2. 协同训练风格方法
2.1 协同训练
协同训练是最早的多视图半监督学习算法,其基本思想是将未标记数据的信息融入到为监督学习定制的模型中。具体做法是给未标记的样本打标签并添加到标记训练集中。
假设样本来自随机变量 $X = {X_1, X_2}$,样本空间为 $R^{D_1} \times R^{D_2}$,目标 $y$ 由潜在过程 $y = g(X_1, X_2)$ 生成。协同训练从函数空间 $F = F_1 \times F_2$ 中寻找函数 $f (X) = ( f_1(X_1), f_2(X_2))$,期望 $f$ 是 $g$ 在最小化损失函数意义下的最佳近似。
这里有一个重要的性质——兼容性,即分类器对标记数据输出正确标签,对未标记数据输出一致。也就是 $f_1(x_{1l}) = f_2(x_{2l}) = y_l$,且 $f_1(x_{1u}) = f_2(x_{2u})$。对标记数据的约束表明 $f$ 应正确近似 $g$,未标记数据上的一致性可缩小函数空间 $F$,随着未标记数据增多,能将可行集约束为 $F$ 中更小、更简单的子集,从而提升分类器性能。
协同训练成功的关键在于如何实现未标记数据上的一致性,这通过两个视图间的迭代标签交换来实现。具体步骤如
超级会员免费看
订阅专栏 解锁全文
106

被折叠的 条评论
为什么被折叠?



