一.基本原理
是一种分析简化数据集的技术
PCA从原始变量出发,通过旋转变化(即原始变量的线性组合)构建出一组新的,互不相关的新变量,这些变量尽可能多的解释原始数据之间的差异性(即数据内在的结构),它们就称为原始数据的主成分。由于这些变量不相关,因此他们无重叠的各自解释一部分差异性。依照每个变量解释的差异性大小排序,它们称为第一主成分,第二主成分,以此类推
PCA旨在找到数据中的主成分,并利用这些主成分表征原始数据,从而达到将为的目的
工作原理可以由两个角度解释
- 最大化投影方差(让数据在主轴上投影的方差尽可能大)
- 最小化平方误差(样本点到超平面的垂直距离足够近)
做法是:数据中心化之后,对样本数据协方差矩阵进行特征分解,选取前d个最大的特征值对应的特征向量,即可将数据从原来的p维降到d维,也可根据奇异值分解来求解主成分
二.优缺点
优点
- 降低数据的复杂型,识别最重要的多个特征
- 使得数据集更易使用
- 降低算法的计算开销
- 去除噪声
- 使得结果更容易理解
- 仅仅需要方差衡量信息量,不受数据集以外的因素影响
- 各主成分之间正交,可以消除原始数据成分间的相互影响的因素
- 计算方法简单,主要运算是特征值分解,易于实现
缺点
- 不一定需要,且可能损失有用信息
- 主成分各特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强
- 方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响
- PCA原理主要是为了消除变量之间的相关性,并且假设这种相关性是线性的,对于非线性的依赖关系则不能得到很好的结果
- PCA假设变量服从高斯分布,当变量不服从高斯分布(如均匀分布)时,会发生尺度缩放与旋转
- 对降维最终得到的数目,也就是潜在的隐变量的数目,不能很好地估计