机器学习系列-主成分分析

最新推荐文章于 2025-06-05 11:34:15 发布

原创

最新推荐文章于 2025-06-05 11:34:15 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

PCA

降维

一些机器学习算法在处理高维数据时，性能会出现明显下降，这就是所谓的“维度灾难”，为此人们开始对算法进行改进。与此同时，对降维的需求催生了降维算法，比如本文要介绍的主成分分析（Principal Component Analysis，PCA）。

在开始本文的主要内容之前，我想先举一个关于降维的例子：

有5个点，坐标如下表所示：

id	x	y
1	5.0	1.4
2	5.0	2.3
3	5.0	5.6
4	4.9	7.8
5	5.0	11.1

将他们画在图中：

这里写图片描述

虽然是二维空间中的点，但是这些点的横坐标几乎都是5，只有第4个点的横坐标稍稍有些“不合群”，我们不妨将这0.1(5-4.9)的偏差作为噪声略去，这样所有的点横坐标都相同了。

现在我们从坐标的角度去分析这些点的差异性，就会发现，分析横坐标是没有任何意义的，因为所有的点横坐标都相等。忽略了横坐标，分析这些二维空间上点等同于分析一维数轴上的点，过程简单了许多。这就是一个降维的过程。

主成分分析（PCA）

上述的降维方法其实是将二维的点全部投影到y轴上，但这样有个问题，这种投影方式不能将不同的数据的差异性体现出来（有些文档也称为变异性）。而PCA要做的就是将数据沿方差最大方向投影，数据更易于区分。详细的说就是，所选取的第一个维要尽可能多的捕获数据的差异性，第二个维与前面的维正交，使得与第一个维一起变化的程度最小，并尽可能多的捕获剩余的差异性，然后继续下去。接下来我们详细介绍PCA的原理。

概率论中通过计算数据的协方差矩阵 $S$ 汇总多元数据集(例如，具有多个连续属性的数据)的差异性。

给定一个 $m*n$ 的数据矩阵 $D$ ，其 $m$ 个行是数据对象，其 $n$ 个列是属性。 $D$ 的协方差矩阵为 $S$ ，其元素 $s_{ij}$ 定义为 $s_{ij}=covariance(d_{*i},d_{*j})$