PCA主成分分析principle component analysis,数据预处理,对数据进行降维的重要手段。也就是分析、简化数据集。与多元统计分析理论比较密切相关。
它的一些特征:
是一个线性变换过程;
转换到一个新的坐标系统,并且求出新的坐标系统的基。
而且是一个正交变换,求出一组正交基。
新的正交基,维度一般都比源数据的维度低。
并且第一分量,正是数据在其投影上的方差最大,即新分量的方差最大。或者说,数据变化的主方向,就是协方差矩阵的主特征向量。
每一个特征值,都是与其对应分量的方差密切相关的,线性相关。特征值之和,就等于其所有点到其中心点的平方和。
比余弦变换复杂,但也比余弦变换更有效。(这个可以详细推敲下)
其算法的步骤也比较简单。一般的描述就是:
整理数据,标准化
求协方差系数
求特征值和特征向量
解释特征值和特征向量的物理意义。
但是,其推导却涉及很多数学概念,这里总结下,如果对所有概念都很熟悉,那么整体推导也就不难了。
1. 投影
投影矩阵w
W应该就特征向量组成的特征矩阵,是一个正交矩阵。可以把源数据x映射/投影到前几个分量(低维空间)的矩阵。
2. 协方差矩阵
数据标准化: 将M个特征的N个数据点,形成一个 N * M 的数据矩阵,然后去均值化。即每一数据 都减去 所在列的均值。减去均值后,仍是一个N*M的矩阵。
求这个矩阵的协方差系数。 与自己转置的协方差,矩阵,结果就是一个 N * N 的新矩阵。其实,它也是一个自相关矩阵,即B(i, j) = B(j, i), 对称阵。
为什么要去均值?
去除均值对变换的影响,而减去均值后,数据的信息量没有变化,即数据的区分度(方差)是不变的。如果不执行去均值,第一主成分,可能会或多或少的与均值相关。