PCA 降维算法详解

最新推荐文章于 2025-06-16 16:29:33 发布

转载最新推荐文章于 2025-06-16 16:29:33 发布 · 1.1k 阅读

本文介绍了主成分分析（PCA）的基本原理及其在数据压缩与可视化方面的应用。PCA可通过降维减少计算资源消耗并提升机器学习效率，同时支持高维数据的可视化展示。

1. 前言

PCA ： principal component analysis ( 主成分分析)

2. PCA的应用范围

PCA的应用范围有：

1. 数据压缩

1.1 数据压缩或者数据降维首先能够减少内存或者硬盘的使用，如果内存不足或者计算的时候出现内存溢出等问题，就需要使用PCA获取低维度的样本特征。

1.2 其次，数据降维能够加快机器学习的速度。

2. 数据可视化

在很多情况下，可能我们需要查看样本特征，但是高维度的特征根本无法观察，这个时候我们可以将样本的特征降维到2D或者3D，也就是将样本的特征维数降到2个特征或者3个特征，这样我们就可以采用可视化观察数据。

3. PCA原理简介

3.1 基础入门

这里我只给出在需要使用PCA的时候需要了解的最基本的PCA的原理，了解这些原理后对于正常的使用没有问题，如果想要深入了解PCA，需要学习一些矩阵分析的知识，更加详细的PCA算法请见wikipedia。

首先，我们定义样本和特征，假定有 m 个样本，每个样本有 n 个特征，可以如下表示：

由简到难，先看一下从2D 降维到1D的比较直观的表示：

在上图中，假设只有两个特征x1, x2, 然后需要降维到1D，这个时候我们可以观察途中X所表示的样本点基本上分布在一条直线上，那么就可以将所有的用(x1, x2)平面表示的坐标映射到图像画出的直线z上，上图中的黑色铅笔线表示样本点映射的过程。

映射到直线Z后，如果只用直线Z表示样本的空间分布，就可以用1个坐标表示每个样本了，这样就将2D的特征降维到1D的特征。同样的道理，如果将3D的特征降维到2D，就是将具有3D特征的样本从一个三维空间中映射到二维空间。

在上图中，将所有的二维特征的样本点映射到了一维直线上，这样，从上图中可以看出在映射的过程中存在映射误差。

在上图中，用圆圈表示了样本映射后的坐标位置。这些位置可以叫做近似位置，以后还要用到这些位置计算映射误差。

因为在降维映射的过程中，存在映射误差，所有在对高维特征降维之前，需要做特征归一化（feature normalization）, 这个归一化操作包括：（1） feature scaling (让所有的特征拥有相似的尺度，要不然一个特征特别小，一个特征特别大会影响降维的效果) （2） zero mean normalization (零均值归一化)。

在上图中，也可以把降维的过程看作找到一个或者多个向量u1, u2, ...., un，使得这些向量构成一个新的向量空间（需要学习矩阵分析哦），然后把需要降维的样本映射到这个新的样本空间上。

对于2D -> 1D 的降维过程，可以理解为找到一个向量u1, u1表示了一个方向，然后将所有的样本映射到这个方向上，其实，一个向量也可以表示一个样本空间。

对于3D -> 2D 的降维过程，可以理解为找到两个向量u1, u2, (u1, u2) 这两个向量定义了一个新的特征空间，然后将原样本空间的样本映射到新的样本空间。

对于n-D -> k-D 的降维过程，可以理解为找到 k 个向量 u1, u2, ..., uk, 这k个向量定义了新的向量空间，然后进行样本映射。

3.2 Cost Function

既然样本映射存在误差，就需要计算每次映射的误差大小。采用以下公式计算误差大小：

X-approx表示的是样本映射以后的新的坐标，这个坐标如果位置如果用当前的样本空间表示，维度和样本X是一致的。

要特别注意， PCA降维和linear regression是不一样的，虽然看上去很一致，但是linear regression的cost function的计算是样本上线垂直的到拟合线的距离，而PCA的cost function 是样本点到拟合线的垂直距离。差别如下图所示：

3.3 PCA 计算过程

（A） Feature Normalization

首先要对训练样本的特征进行归一化，特别强调的是，归一化操作只能在训练样本中进行，不能才CV集合或者测试集合中进行，也就是说归一化操作计算的各个参数只能由训练样本得到，然后测试样本根据这里得到的参数进行归一化，而不能直接和训练样本放在一起进行归一化。

另外，在训练PCA降维矩阵的过程中，也不能使用CV样本或者测试样本，这样做是不对的。有很多人在使用PCA训练降维矩阵的时候，直接使用所有的样本进行训练，这样实际上相当于作弊的，这样的话降维矩阵是在包含训练样本和测试样本以及CV样本的情况下训练得到的，在进行测试的时候，测试样本会存在很大的优越性，因为它已经知道了要降维到的空间情况。

注意：这里的X是一个m * n 的矩阵，有 m 个样本，每个样本包含 n 个特征，每一行表示一个样本。 X_norm是最终得到的特征，首先计算了所有训练样本每个特征的均值，然后减去均值，然后除以标准差。

（B）计算降维矩阵

B1. 首先计算样本特征的协方差矩阵

如下图所示，如果是每个样本单独计算，则采用图中横线上的公式，如果是采用矩阵化的计算，则采用横线下的公式。

B2. 计算协方差矩阵的特征值和特征向量

采用奇异值分解的算法计算协方差矩阵的特征值和特征向量，奇异值分解是个比较复杂的概念，如果有兴趣可以查看wikipedia，也可以直接使用matlab或者octave已经提供的奇异值分解的接口。

在上图中， U 则是计算得到的协方差矩阵的所有特征向量，每一列都是一个特征向量，并且特征向量是根据特征大小由大到小进行排序的， U 的维度为 n * n 。 U 也被称为降维矩阵。利用U 可以将样本进行降维。默认的U 是包含协方差矩阵的所有特征向量，如果想要将样本降维到 k 维，那么就可以选取 U 的前 k 列， Uk 则可以用来对样本降维到 k 维。这样 Uk 的维度为 n * k