实际应用场景下,面对多种数据降维方法,我们应该清楚地了解各降维方法的原理,熟知其优劣,将其合理地应用于需处理的问题中。下面,将从实际应用的角度,对各降维算法逐个进行优劣分析。
PCA
优点:
- 能够从数据集中提取新的特征(原始特征的线性组合),并且这些特征能够最大程度捕捉数据集中方差较大的特征,同时提取的新特征之间彼此不相关。一些预测模型要求预测变量之间无相关性(弱相关性),以便得到稳定的数值解。
缺点:
- 非监督的方法,仅捕捉了数据集方差较大的特征,未考虑响应变量,可能利用PCA提取的数据特征与响应变量无关。
- 预测变量的测量标度要求相同(因为PCA会捕捉变异大的预测变量),并且数据分布相同(数据无偏)。所以在使用进行PCA之前,应该先对有偏的变量进行变换(Box-Cox变换),然后对变量进行中心化和标准化(变换到同一测量标度)。
LDA
线性判别分析(Linear Discriminant Analysis)作为一种监督式的降维方法,同时也用作分类器,它主要思想是:使得对原空间进行投影运算后,类间的样本点数据分布间隔大,而类内样本点数据分布方差小。
优点:
- 作为有监督的降维方法,它考虑了响应变量的作用,会得到能够区分响应变量的新的特征(也是原始特征的线性组合)。