主分量分析（PCA）

最新推荐文章于 2024-08-07 09:13:37 发布

原创

最新推荐文章于 2024-08-07 09:13:37 发布 · 2.2k 阅读

0 ·

CC 4.0 BY-SA版权

主分量分析（PCA）是一种数据降维方法，用于提取数据的主要特征。PCA通过求解协方差矩阵的特征向量来找到数据的主成分，保留方差大的维度，降低数据的复杂性。PCA在高斯分布的信号处理中效果较好，但非高斯分布的数据则需使用如NLPCA等方法。PCA常用于图像描述、异常检测、数据压缩等领域。

把从混合信号中求出主分量（能量最大的成份）的方法称为主分量分析（PCA），而次分量（Minor Components,MCs）与主分量（Principal Components,PCs）相对，它是混合信号中能量最小的成分，被认为是不重要的或是噪声有关的信号，把确定次分量的方法称为次分量分析（MCA）.

PCA可以用于减少特征空间维数、确定变量的线性组合、选择最有用的变量、变量辨识、识别目标或是异常值分组等。主分量子空间提供了从高维数据到低维数据在均方误差意义下的数据压缩，它能最大程度地减少方差。

由于PCA实际计算中只涉及到输入数据概率密度分布函数（Pdf）的二阶特性（协方差矩阵），所以解出的各主分量只互相正交（不相关），但并不满足相互独立。而且信号的大部分重要特征往往包含在Pdf的高阶统计特性中，所以只有多变量观测数据是由高斯分布的源信号构成，PCA方法才有效。

非线性PCA（NLPCA）即将高阶累积量引入标准的PCA中，是由芬兰学者Karhunen和Oja首先提出并将其应用于ICA。它的可以完成对输入信号的盲分离。高阶累积量是以隐含的方式引入计算的，采用自适应迭代方法便于工程实现。标准的PCA基于信号的协方差矩阵仅能处理高斯信号，而NLPCA可以处理非高斯信号。

PCA（Principal Component Analysis），即主成分分析，主要用于数据降维。
对于一组样本的feature组成的多维向量，多维向量里的某些元素本身没有区分性，比如某个元素在所有的样本中都为1，或者与1差距不大，那么这个元素本身就没有区分性，用它做特征来区分，贡献会非常小。所以我们的目的是找那些变化大的元素，即方差大的那些维，而去除掉那些变化不大的维，从而使feature留下的都是最能代表此元素的“精品”，而且计算量也变小了。

对于一个k维的feature来说，相当于它的每一维feature与其他维都是正交的（相当于在多维坐标系中，坐标轴都是垂直的），那么我们可以变化这些维的坐标系，从而使这个feature在某些维上方差大，而在某些维上方差很小。例如，一个45度倾斜的椭圆，在第一坐标系，如果按照x,y坐标来投影，这些点的x和y的属性很难用于区分他们，因为他们在x,y轴上坐标变化的方差都差不多，我们无法根据这个点的某个x属性来判断这个点是哪个，而如果将坐标轴旋转，以椭圆长轴为x轴，则椭圆在长轴上的分布比较长，方差大，而在短轴上的分布短，方差小，所以可以考虑只保留这些点的长轴属性，来区分椭圆上的点，这样，区分性比x,y轴的方法要好！

所以我们的做法就是求得一个k维特征的投影矩阵，这个投影矩阵可以将feature从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交，特征向量都是正交的。通过求样本矩阵的协方差矩阵，然后求出协方差矩阵的特征向量，这些特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。

举一个例子：

对于一个训练集，100个样本