76、基于超图谱的无监督特征选择

基于超图谱的无监督特征选择

1. 引言

在处理高维数据时,识别出对分类和聚类有信息价值的较小特征子集至关重要。降维旨在减少考虑的变量数量,可分为特征提取和特征选择。特征提取通常将特征投影到低维且不同的特征空间,如核主成分分析(kernel PCA)、局部保持投影(LPP)和拉普拉斯特征映射(Laplacian eigenmap)。而特征选择则是在原始特征空间中识别最优特征子集,通过保留原始特征,提高了数据的可解释性,在许多实际应用中更受青睐,如人脸识别和文本挖掘。特征选择算法大致可分为两类:有监督特征选择和无监督特征选择。

有监督特征选择所需的标记数据可能稀缺,而无标记数据通常较为丰富。因此,开发能够利用这些数据的无监督特征选择算法具有明显的吸引力。无监督学习中的典型例子是基于图的谱学习算法,如拉普拉斯分数(Laplacian score)、SPEC、多簇特征选择(MCFS)和无监督判别特征选择(UDFS)。这些谱特征选择算法的思想是识别与样本相似性矩阵 $S$ 的前导特征向量对齐良好的特征,因为 $S$ 的前导特征向量包含样本分布结构的信息,并将相似样本分组到紧凑的簇中。

然而,上述基于图的谱特征选择方法存在两个局限性:
- 它们单独评估特征,因此无法处理冗余特征。冗余特征会不必要地增加维度,并在数据不足时恶化学习性能。
- 在许多情况下,关系模式的图表示可能导致大量信息丢失,因为现实世界中的对象及其特征往往表现出多种关系,而不仅仅是简单的成对关系,例如不同光照条件下面部的分类问题。

为了解决上述问题,我们将数据集表示为超图而不是图。超图表示允许顶点通过超边多重连接,因此可以捕获特征之间的多个或更高阶关系。

2. 超
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值