特征选择与转换:原理、方法及应用
1. 特征选择与转换简介
在模式分类中,一个基本问题是使用一组适合分类要求的特征。第一步是特征提取,以图像分类为例,特征集通常包括梯度、显著点、SIFT 特征等,也可以提取高级特征,如人脸数量和位置检测、结构化环境中墙壁或表面的检测,以及文本检测等,这些高级特征本身也是分类问题。
特征提取完成后,选择最具信息性的特征很有必要。因为特征提取过程不一定能为具体问题提供最佳特征,原始特征集往往包含过多特征,其中一些可能是冗余的,一些可能引入噪声或不相关。在某些问题中,特征数量非常多,需要降低其维度以使问题可处理;在其他问题中,特征选择能提供关于数据类别的新知识。例如,在基因选择中,会寻找一组基因(特征)来解释哪些基因导致某种疾病。此外,适当选择的特征集能显著提高分类性能,但特征选择是一项具有挑战性的任务。
降维主要有两种方法:特征选择和特征转换。特征选择通过丢弃特征来减少特征集;特征转换是从原始变量构建新的特征空间,也称为特征提取。
1.1 特征转换方法
常见的特征转换方法包括主成分分析(PCA)、线性判别分析(LDA)和独立成分分析(ICA)等。
- 主成分分析(PCA) :基于数据协方差矩阵的特征值,不考虑类别。它能以最小均方误差的方式最优地表示数据,有助于分离噪声,但不适合在分类问题中寻找具有判别性的特征。还有一种扩展的广义主成分分析(GPCA),本质上是一种用于聚类的代数几何方法。PCA 寻找使高斯方差最大化的投影方向,而 GPCA 寻找穿过数据的子空间。
- 线性判别分析(LDA) :使用类间协方差矩阵,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



