主成分分析_主成分投影方向既是方差最大方向-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42958977/article/details/125282913

主成分分析PCA是一种常用的降维方法，通过选择基向量实现数据压缩和冗余消除。PCA流程包括数据中心化、计算协方差矩阵、求解特征值和特征向量，并根据特征值大小选择基向量。基向量个数由信息保留阈值决定，通常选取最大特征值对应的向量。中心化处理确保协方差矩阵计算的准确性。KPCA是PCA的扩展，适用于非线性数据。PCA适用于数据可解释性要求较低、降维后允许信息损失的场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主成分分析

主成分分析（Principal components analysis，以下简称PCA）是最常用的降维方法之一，在数据压缩和消除冗余方面具有广泛的应用，本文由浅入深的对其降维原理进行了详细总结。

1.向量投影和矩阵投影的含义

如下图：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E9JyM42y-1655199529470)(C:%5CUsers%5C16499%5CDesktop%5CSnipaste_2022-06-06_22-31-28.png)]

向量a在向量b的投影为1

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cEKIElUq-1655199529471)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223214674.png)]

：

其中，θ是向量间的夹角。向量a在向量b的投影表示向量a在向量b方向的信息，若θ=90°时，向量a与向量b正交，向量a无向量b信息，即向量间无冗余信息。因此，向量最简单的表示方法是用基向量表示，如下图：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W95QW8As-1655199529472)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223231997.png)]

向量表示方法：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S88MEKG8-1655199529473)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223248748.png)]

其中，c1是OA 在e1方向的投影，c2是在e2方向的投影，e1和e2是基向量.

我们用向量的表示方法扩展到矩阵，若矩阵的秩r(A)=n，，其中ai（i=1,2,…,n）为n个维度的列向量，那么矩阵A的列向量表示为：其中，e1，e2，…，en为矩阵A的特征向量。若矩阵A是对称矩阵，那么特征向量为正交向量，我们对上式结合成矩阵的形式：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ocxqCnL1-1655199529473)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223349503.png)]

其中，e1，e2，…，en为矩阵A的特征向量。

若矩阵A是对称矩阵，那么特征向量为正交向量，我们对上式结合成矩阵的形式：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ta5kgqoY-1655199529474)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223413880.png)]

由上式可知，对称矩阵A在各特征向量的投影等于矩阵列向量展开后的系数，特征向量可理解为基向量。

2.向量降维和矩阵降维含义

向量降维可以通过投影的方式实现，N维向量映射为M维向量转换为N维向量在M个基向量的投影，如N维向量，M个基向量分别为，在基向量的投影：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-m3P8oSn9-1655199529474)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223450674.png)]

通过上式完成了降维，降维后的坐标为：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i336mGRs-1655199529474)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223504967.png)]

矩阵是由多个列向量组成的，因此矩阵降维思想与向量降维思想一样，只要求得矩阵在各基向量的投影即可，基向量可以理解为新的坐标系，投影就是降维后的坐标，那么问题来了，如何选择基向量？

3.基向量选择算法已知样本集的分布，如下图：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R1osfvRr-1655199529475)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223537453.png)]

样本集共有两个特征x1和x2，现在对该样本数据从二维降到一维，图中列了两个基向量u1和u2，样本集在两个向量的投影表示了不同的降维方法，哪种方法好，需要有评判标准：（1）降维前后样本点的总距离足够近，即最小投影距离；（2）降维后的样本点（投影）尽可能的散开，即最大投影方差。因此，根据上面两个评判标准可知选择基向量u1较好。我们知道了基向量的选择标准，下面介绍基于这两个评判标准来推导基向量：

（1）基于最小投影距离假设有n个n维数据，记为X。现在对该数据从n维降到m维，关键是找到m个基向量，假设基向量为{w1,w2,…,wm}，记为矩阵W，矩阵W的大小是n×m。原始数据在基向量的投影：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cFBXHMta-1655199529475)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223613002.png)]

投影坐标计算公式：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Op6Z9l4n-1655199529475)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223628683.png)]

根据投影坐标和基向量，得到该样本的映射点:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lS6XwZtP-1655199529475)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223645970.png)]

最小化样本和映射点的总距离：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jWBZGmN3-1655199529475)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223659143.png)]

推导上式，得到最小值对应的基向量矩阵W，推导过程如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hdy8Q7yb-1655199529476)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223720899.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VbBS0W0n-1655199529476)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223736534.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xb6hN2zL-1655199529476)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223755392.png)]

(2) 基于最大投影方差我们希望降维后的样本点尽可能分散，方差可以表示这种分散程度。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IXaHzvCJ-1655199529476)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223810932.png)]

如上图所示，x(i) 表示原始数据，Z(I) 表示投影数据， z(t)表示投影数据的平均值。所以最大化投影方差表示为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IZRAc566-1655199529477)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223912224.png)]

下面推导上式，得到相应的基向量矩阵W，推导过程如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qKg7gkgC-1655199529477)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223937955.png)]

我们发现(4)式与上一节的(13)式是相同的。

因此，基向量矩阵W满足下式：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rdTSLaw5-1655199529478)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223956474.png)]

小结：降维通过样本数据投影到基向量实现的，基向量的个数等于降维的个数，基向量是通过上式求解的。

4. 基向量个数的确定

我们知道怎么求解基向量，但是我们事先确定了基向量的个数，如上节的m个基向量，那么怎么根据样本数据自动的选择基向量的个数了？在回答这一问题前，简单阐述下特征向量和特征值的意义。假设向量wi，λi分别为的特征向量和特征值，表达式如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-84diNOYN-1655199529478)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224025421.png)]

对应的图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YkSf8Yjv-1655199529478)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224048053.png)]

由上图可知， XXt没有改变特征向量wi的方向，只在wi的方向上伸缩或压缩了λi倍。特征值代表了 XXt在该特征向量的信息分量。特征值越大，包含矩阵XXt 的信息分量亦越大。因此，我们可以用λi去选择基向量个数。我们设定一个阈值threshold，该阈值表示降维后的数据保留原始数据的信息量，假设降维后的特征个数为m，降维前的特征个数为n，m应满足下面条件：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pdxlbww8-1655199529478)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224158263.png)]

因此，通过上式可以求得基向量的个数m，即取前m个最大特征值对应的基向量。

投影的基向量：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q41e9nlL-1655199529479)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224218019.png)]

投影的数据集：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rv5NNNRx-1655199529479)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224231652.png)]

5.中心化的作用

我们在计算协方差矩阵XXt 的特征向量前，需要对样本数据进行中心化，中心化的算法如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bM4n4pvc-1655199529479)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224341174.png)]

中心化数据各特征的平均值为0，计算过程如下：

对上式求平均：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WnpOcRn6-1655199529480)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224409585.png)]

中心化的目的是简化算法，我们重新回顾下协方差矩阵，以说明中心化的作用。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TQ6CGwox-1655199529480)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224431712.png)]X表示共有n个样本数。

每个样本包含n个特征，即[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6Rk2GE4E-1655199529480)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224453239.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bwKKtyjQ-1655199529480)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224512386.png)]

为了阅读方便，我们只考虑两个特征的协方差矩阵：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qr3L0nLW-1655199529481)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224532470.png)]

由(3)式推导(2)式得：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WHlev5FG-1655199529481)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224550404.png)]

所以 XXt是样本数据的协方差矩阵，但是，切记必须事先对数据进行中心化处理。

6.PCA算法流程

1）样本数据中心化。

2）计算样本的协方差矩阵。

3）求协方差矩阵的特征值和特征向量，并对该向量进行标准化（基向量）。

4）根据设定的阈值，求满足以下条件的降维数m。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TASOVQyQ-1655199529481)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224641634.png)]

5）取前m个最大特征值对应的向量，记为W

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uaDejq9m-1655199529481)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224704543.png)]

6）对样本集的每一个样本X(i) ，映射为新的样本Z(i) 。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fy1Jmc3w-1655199529482)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224743934.png)]

7）得到映射后的样本集D’。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tTlS41fy-1655199529482)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224800304.png)]

7.核主成分分析（KPCA）介绍

因为XXt 可以用样本数据内积表示：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QoZr2ElU-1655199529482)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224829557.png)]

由核函数定义可知，可通过核函数将数据映射成高维数据，并对该高维数据进行降维：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hupDNNLH-1655199529483)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224842820.png)]

KPCA一般用在数据不是线性的，无法直接进行PCA降维，需要通过核函数映射成高维数据，再进行PCA降维。