主成分分析

主成分分析PCA是一种常用的降维方法,通过选择基向量实现数据压缩和冗余消除。PCA流程包括数据中心化、计算协方差矩阵、求解特征值和特征向量,并根据特征值大小选择基向量。基向量个数由信息保留阈值决定,通常选取最大特征值对应的向量。中心化处理确保协方差矩阵计算的准确性。KPCA是PCA的扩展,适用于非线性数据。PCA适用于数据可解释性要求较低、降维后允许信息损失的场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主成分分析

主成分分析(Principal components analysis,以下简称PCA)是最常用的降维方法之一,在数据压缩和 消除冗余方面具有广泛的应用,本文由浅入深的对其降维原理进行了详细总结。

目录

1.向量投影和矩阵投影的含义

  1. 向量降维和矩阵降维的含义
  2. 基向量选择算法
  3. 基向量个数的确定
  4. 中心化的作用
  5. PCA算法流程
  6. PCA算法总结

1.向量投影和矩阵投影的含义

如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E9JyM42y-1655199529470)(C:%5CUsers%5C16499%5CDesktop%5CSnipaste_2022-06-06_22-31-28.png)]

​ 向量a在向量b的投影为1

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cEKIElUq-1655199529471)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223214674.png)]

其中,θ是向量间的夹角 。 向量a在向量b的投影表示向量a在向量b方向的信息,若θ=90°时,向量a与向量b正交,向量a无向量b信 息,即向量间无冗余信息 。因此,向量最简单的表示方法是用基向量表示,如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W95QW8As-1655199529472)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223231997.png)]

向量表示方法:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S88MEKG8-1655199529473)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223248748.png)]

其中,c1是OA 在e1方向的投影,c2是 在e2方向的投影,e1和e2是基向量.

我们用向量的表示方法扩展到矩阵,若矩阵 的秩r(A)=n, ,其中ai(i=1,2,…,n)为n个维度的列向量,那么矩阵A的列向量表示为: 其中,e1,e2,…,en为矩阵A的特征向量 。 若矩阵A是对称矩阵,那么特征向量为正交向量,我们对上式结合成矩阵的形式:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ocxqCnL1-1655199529473)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223349503.png)]

其中,e1,e2,…,en为矩阵A的特征向量 。

若矩阵A是对称矩阵,那么特征向量为正交向量,我们对上式结合成矩阵的形式:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ta5kgqoY-1655199529474)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223413880.png)]

由上式可知,对称矩阵A在各特征向量的投影等于矩阵列向量展开后的系数,特征向量可理解为基向量。

2.向量降维和矩阵降维含义

向量降维可以通过投影的方式实现,N维向量映射为M维向量转换为N维向量在M个基向量的投影,如N维 向量 ,M个基向量分别为 , 在基向量的投影:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-m3P8oSn9-1655199529474)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223450674.png)]

通过上式完成了降维,降维后的坐标为:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-i336mGRs-1655199529474)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223504967.png)]

矩阵是由多个列向量组成的,因此矩阵降维思想与向量降维思想一样,只要求得矩阵在各基向量的投影即 可,基向量可以理解为新的坐标系,投影就是降维后的坐标,那么问题来了,如何选择基向量?

3.基向量选择算法 已知样本集的分布,如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-R1osfvRr-1655199529475)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223537453.png)]

样本集共有两个特征x1和x2,现在对该样本数据从二维降到一维,图中列了两个基向量u1和u2,样本集在 两个向量的投影表示了不同的降维方法,哪种方法好,需要有评判标准:(1)降维前后样本点的总距离足 够近,即最小投影距离;(2)降维后的样本点(投影)尽可能的散开,即最大投影方差 。因此,根据上面 两个评判标准可知选择基向量u1较好。 我们知道了基向量的选择标准,下面介绍基于这两个评判标准来推导基向量:

(1)基于最小投影距离 假设有n个n维数据 ,记为X。现在对该数据从n维降到m维,关键是找到m个基向 量,假设基向量为{w1,w2,…,wm},记为矩阵W,矩阵W的大小是n×m。 原始数据在基向量的投影:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cFBXHMta-1655199529475)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223613002.png)]

投影坐标计算公式:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Op6Z9l4n-1655199529475)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223628683.png)]

根据投影坐标和基向量,得到该样本的映射点:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lS6XwZtP-1655199529475)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223645970.png)]

最小化样本和映射点的总距离:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jWBZGmN3-1655199529475)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223659143.png)]

推导上式,得到最小值对应的基向量矩阵W,推导过程如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hdy8Q7yb-1655199529476)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223720899.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VbBS0W0n-1655199529476)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223736534.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xb6hN2zL-1655199529476)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223755392.png)]

(2) 基于最大投影方差 我们希望降维后的样本点尽可能分散,方差可以表示这种分散程度。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IXaHzvCJ-1655199529476)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223810932.png)]

如上图所示,x(i) 表示原始数据,Z(I) 表示投影数据, z(t)表示投影数据的平均值。所以最大化投影方差 表示为

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IZRAc566-1655199529477)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223912224.png)]

下面推导上式,得到相应的基向量矩阵W,推导过程如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qKg7gkgC-1655199529477)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223937955.png)]

我们发现(4)式与上一节的(13)式是相同的。

因此,基向量矩阵W满足下式:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rdTSLaw5-1655199529478)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606223956474.png)]

小结:降维通过样本数据投影到基向量实现的,基向量的个数等于降维的个数,基向量是通过上式求解的。

4. 基向量个数的确定

我们知道怎么求解基向量,但是我们事先确定了基向量的个数,如上节的m个基向量,那么怎么根据样本数 据自动的选择基向量的个数了?在回答这一问题前,简单阐述下特征向量和特征值的意义。 假设向量wi,λi分别为 的特征向量和特征值,表达式如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-84diNOYN-1655199529478)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224025421.png)]

对应的图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YkSf8Yjv-1655199529478)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224048053.png)]

由上图可知, XXt没有改变特征向量wi的方向,只在wi的方向上伸缩或压缩了λi倍。特征值代表了 XXt在该特征向量的信息分量。特征值越大,包含矩阵XXt 的信息分量亦越大。因此,我们可以用λi去选择基 向量个数。我们设定一个阈值threshold,该阈值表示降维后的数据保留原始数据的信息量,假设降维后的 特征个数为m,降维前的特征个数为n,m应满足下面条件:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pdxlbww8-1655199529478)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224158263.png)]

因此,通过上式可以求得基向量的个数m,即取前m个最大特征值对应的基向量 。

投影的基向量:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q41e9nlL-1655199529479)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224218019.png)]

投影的数据集:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rv5NNNRx-1655199529479)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224231652.png)]

5.中心化的作用

我们在计算协方差矩阵XXt 的特征向量前,需要对样本数据进行中心化,中心化的算法如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bM4n4pvc-1655199529479)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224341174.png)]

中心化数据各特征的平均值为0,计算过程如下:

对上式求平均:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WnpOcRn6-1655199529480)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224409585.png)]

中心化的目的是简化算法,我们重新回顾下协方差矩阵,以说明中心化的作用 。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TQ6CGwox-1655199529480)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224431712.png)]X表示共有n个样本数。

每个样本包含n个特征,即[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6Rk2GE4E-1655199529480)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224453239.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bwKKtyjQ-1655199529480)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224512386.png)]

为了阅读方便,我们只考虑两个特征的协方差矩阵:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Qr3L0nLW-1655199529481)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224532470.png)]

由(3)式推导(2)式得:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WHlev5FG-1655199529481)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224550404.png)]

所以 XXt是样本数据的协方差矩阵,但是,切记必须事先对数据进行中心化处理 。

6.PCA算法流程

1)样本数据中心化。

2)计算样本的协方差矩阵 。

3)求协方差矩阵 的特征值和特征向量,并对该向量进行标准化(基向量)。

4)根据设定的阈值,求满足以下条件的降维数m。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TASOVQyQ-1655199529481)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224641634.png)]

5)取前m个最大特征值对应的向量,记为W

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uaDejq9m-1655199529481)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224704543.png)]

6)对样本集的每一个样本X(i) ,映射为新的样本Z(i) 。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fy1Jmc3w-1655199529482)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224743934.png)]

7)得到映射后的样本集D’。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tTlS41fy-1655199529482)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224800304.png)]

7.核主成分分析(KPCA)介绍

因为XXt 可以用样本数据内积表示:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QoZr2ElU-1655199529482)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224829557.png)]

由核函数定义可知,可通过核函数将数据映射成高维数据,并对该高维数据进行降维:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hupDNNLH-1655199529483)(E:%5C%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%9D%A2%E8%AF%95%E9%A2%98%5Cimage-20220606224842820.png)]

KPCA一般用在数据不是线性的,无法直接进行PCA降维,需要通过核函数映射成高维数据,再进行PCA降 维 。

8.PCA算法总结

…(img-QoZr2ElU-1655199529482)]

由核函数定义可知,可通过核函数将数据映射成高维数据,并对该高维数据进行降维:

[外链图片转存中…(img-hupDNNLH-1655199529483)]

KPCA一般用在数据不是线性的,无法直接进行PCA降维,需要通过核函数映射成高维数据,再进行PCA降 维 。

8.PCA算法总结

PCA是一种非监督学习的降维算法,只需要计算样本数据的协方差矩阵就能实现降维的目的,其算法较易实 现,但是降维后特征的可解释性较弱,且通过降维后信息会丢失一些,可能对后续的处理有重要影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值