机器学习之主成分分析（Principal Component Analysis）

原创

已于 2023-07-24 13:38:26 修改 · 8.8k 阅读

86 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

于 2023-07-20 23:29:27 首次发布

主成分分析(PCA)是一种非监督学习的降维算法，通过找到数据的主要特征向量（主成分）来降低数据的维度。PCA的目标是保持数据的主要方差信息，并使得新特征之间线性无关。PCA常用于数据预处理、特征提取和去噪，尤其在高维数据的可视化和机器学习模型的构建中发挥作用。文章介绍了PCA的原理、优化目标、求解步骤，并通过Python的sklearn库展示了对鸢尾花数据集进行降维处理的实例。

1 主成分分析介绍

1.1 什么是主成分分析

主成分分析（Principal Component Analysis）简称PCA，是一个非监督学习的机器学习算法，主要用于数据的降维，对于高维数据，通过降维，可以发现更便于人类理解的特征。

PCA是实现数据降维的一种算法。正如其名，假设有一份数据集，每条数据的维度是D，PCA通过分析这D个维度的前K个主要特征(这K个维度在原有D维特征的基础上重新构造出来，且是全新的正交特征)，将D维的数据映射到这K个主要维度上进而实现对高维数据的降维处理。 PCA算法所要达到的目标是，降维后的数据所损失的信息量应该尽可能的少，即这K个维度的选取应该尽可能的符合原始D维数据的特征。

1.2 为什么需要PCA算法

在许多领域的研究与应用中，往往需要对反映事物的多个变量进行大量的观测，收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息，但也在一定程度上增加了数据采集的工作量，更重要的是在多数情况下，许多变量之间可能存在相关性，从而增加了问题分析的复杂性，同时对分析带来不便。如果分别对每个指标进行分析，分析往往是孤立的，而不是综合的。盲目减少指标会损失很多信息，容易产生错误的结论。

因此需要找到一个合理的方法，在减少需要分析的指标同时，尽量减少原指标包含信息的损失，以达到对所收集数据进行全面分析的目的。由于各变量间存在一定的相关关系，因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就属于这类降维的方法。

1.3 PCA原理

降维有两种方法，一种是特征消除，另一种是特征提取

特征消除：将会在直接消除那些我们觉得不重要的特征，这会使我们对视这些特征中的很多信息。
特征提取：通过组合现有特征来创建新变量，可以尽量保存特征中存在的信息

PCA是一种常见的数据降维算法，PCA会将关系紧密的变量变成尽可能少的新变量，使这些新变量是两两不相关的，于是就可以用较少的综合指标分别代表存在于各个变量中的各类信息。PCA的核心思想是找到一个维数更低的仿射集，然后将所有的数据点在其上做投影，以得到新的在更低维空间中的点作为新的数据。如何选择这样的仿射集，以降维的同时不至于损失过多的信息呢？有两种思路：

最近重构性：样本点到该仿射集的距离要尽量小；
最大可分性：样本点到该放射集的投影要尽可能分开。

上图所示的左图中有5个离散点，降低维度，就是需要把点映射成一条线。将其映射到右图中黑色虚线上则样本变化最大，且坐标点更分散，这条黑色虚线就是第一主成分的投影方向。

PCA是一种线性降维方法，即通过某个投影矩阵将高维空间中的原始样本点线性投影到低维空间，以达到降维的目的，线性投影就是通过矩阵变换的方式把数据映射到最合适的方向。

降维的几何意义可以理解为旋转坐标系，取前k个轴作为新特征。降维的代数意义可以理解为 $eq?m%5Ctimes%20n$ ，阶的原始样本X，与 $eq?n%5Ctimes%20k$ 阶的矩阵W做矩阵乘法运算 $eq?X%5Ctimes%20W$ （下面简记为XW），即得到m*k阶的低维矩阵Y，这里 $eq?n%5Ctimes%20k$ 阶的矩阵W就是投影矩阵。