半监督学习中的峰值现象与步态识别的独立特征研究
1. 半监督学习中的峰值现象
1.1 半监督分类器
在半监督学习中,我们希望研究最小二乘分类器。然而,Raudys和Duin所研究的分类器与我们要研究的最小二乘分类器并不直接对应,也不清楚如何将其扩展到半监督环境中。因此,我们考虑一个稍有不同的版本:
[w = T^{-1}(m_1 - m_2)]
当(n > p)时,此式与另一个公式等价。并且,当数据居中((m = 0))且类先验完全相等时,它等同于最小二乘分类器的解,最小二乘分类器最小化平方损失((x_{i}^{\top}w - y_{i})^2),其解为:
[w = (X^{\top}X)^{-1}X^{\top}y]
其中(y)是包含标签数值编码的向量,(X)是包含(L)个标记特征向量(x_i)的(L×p)设计矩阵。当(n < p)时,上述两个公式的解不一定相同,这使得我们无法直接应用之前的结果来获得学习曲线的定量良好估计,并且其证明也不易适应这个新的分类器。
为了将最小二乘分类器适应半监督环境,我们根据额外的未标记数据更新(T)(它不依赖于类标签)。我们定义半监督最小二乘分类器为:
[w = (\frac{L}{L + U}X_{e}^{\top}X_{e})^{-1}X^{\top}y]
其中(L)是标记对象的数量,(U)是未标记对象的数量,(X_e)是包含所有特征向量的((L + U)×p)设计矩阵。权重(\frac{L}{L + U})是必要的,因为(X_{e}^{\top}X_{e})本质上是对更多对象的求和,我们需要进行修正。
半监督学习与步态识别研究
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



