改进核偏最小二乘的半监督分类方法
在数据分析领域,特征提取、分类和聚类是处理多元数据的基本方法。在实际的分类任务中,我们常常会遇到样本数量远小于特征数量的情况,这就导致难以准确估计分类器的参数,进而影响分类结果,这种现象被称为“维度灾难”。为了解决这个问题,需要降低特征空间的维度,常见的方法有特征选择和特征提取。
1. 研究背景与方法提出
在实际分类任务中,数据集往往存在标注数据少、未标注数据多的情况。获取标注数据既耗时又耗力,有时还需要专业设备和专业知识。在这种情况下,半监督学习就具有很大的实用价值,它可以同时利用标注数据和未标注数据,提高特征提取的效果和学习的准确性。
本文提出了一种半监督的非线性特征提取方法,将改进的偏最小二乘法(PLS)的核与高斯混合模型(GMM)聚类算法相结合。监督核利用标注样本的信息,聚类核则利用数据流形的结构信息。该方法在经济数据集上进行了测试,并与其他知名分类算法进行了比较。
2. 相关方法介绍
2.1 偏最小二乘法(PLS)
PLS 是一种常用的特征提取方法,它使用最小二乘回归方法来计算载荷、得分和回归系数。经典 PLS 的目标是优化以下目标函数:
[
(w_k, q_k) = \arg \max_{w^Tw = 1; q^Tq = 1} \text{cov} (X_{k - 1}w, Y_{k - 1}q)
]
在以下条件下:
[
w_k^Tw_k = q_kq_k^T = 1, \quad 1 \leq k \leq d
]
[
t_k^Tt_j = w_k^TX_{k - 1}^TX_
超级会员免费看
订阅专栏 解锁全文
2433

被折叠的 条评论
为什么被折叠?



