主成分分析(PCA)原理总结

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

主成分分析(Principal components analysis,以下简称PCA)是最常用的降维方法之一,在数据压缩和消除冗余方面具有广泛的应用,本文由浅入深的对其降维原理进行了详细总结。

目录


1.向量投影和矩阵投影的含义

2. 向量降维和矩阵降维的含义

3. 基向量选择算法

4. 基向量个数的确定

5. 中心化的作用

6. PCA算法流程

7. PCA算法总结

1. 向量投影和矩阵投影的含义

如下图:

832f54f563d92be04ec4ce1353a2a04b.png

向量a在向量b的投影为:

1fe12a0e904dc047117ceceb62207f07.png

其中,θ是向量间的夹角 。

向量a在向量b的投影表示向量a在向量b方向的信息,若θ=90°时,向量a与向量b正交,向量a无向量b信息,即向量间无冗余信息 。因此,向量最简单的表示方法是用基向量表示,如下图:

ac06b63d61c4640104e2baf60cb70ae6.png

向量表示方法:

72f7fa6bf33618cf0614af7b6ff8a2d9.png

其中,c1是95f629f707b01489e7f0a388ecc8761f.png在e1方向的投影,c2是929decc27a2b84fb726624c0a3088d49.png在e2方向的投影,e1和e2是基向量

我们用向量的表示方法扩展到矩阵,若矩阵5ac2f3e0c9043899453b44de73c6d7d6.png的秩r(A)=n,ead4cb1ed395faa22d1b050431519231.png

,其中ai(i=1,2,...,n)为n个维度的列向量,那么矩阵A的列向量表示为:

afb018840c5f425dc09822e4c460f91e.png

其中,e1,e2,...,en为矩阵A的特征向量 。

若矩阵A是对称矩阵,那么特征向量为正交向量,我们对上式结合成矩阵的形式:

304d617eb6701edc226bb75275430eff.png6ef2fa5f3e63b01d21bd6fd3c8a1b632.png

dca7430388409561c195d6d4670d11f5.png

由上式可知,对称矩阵A在各特征向量的投影等于矩阵列向量展开后的系数,特征向量可理解为基向量。

2. 向量降维和矩阵降维含义

向量降维可以通过投影的方式实现,N维向量映射为M维向量转换为N维向量在M个基向量的投影,如N维向量6666c3416c91cf53df7f0fa73802d8a1.png,M个基向量分别为9c9a38d4e8c3efe1983e4af6f48a8e1b.pngfc8abf02d2fcb0b828f9e9bd30b8defc.png在基向量的投影:

15e3a37c8faeedb290ef626610a8920c.png

通过上式完成了降维,降维后的坐标为:

1fbf06e4b0aac1e16cbe8ff90422f8fc.png

矩阵是由多个列向量组成的,因此矩阵降维思想与向量降维思想一样,只要求得矩阵在各基向量的投影即可,基向量可以理解为新的坐标系,投影就是降维后的坐标,那么问题来了,如何选择基向量?

3. 基向量选择算法

已知样本集的分布,如下图:

2211e9cec8eea35ff1fe49937adc47e7.png

样本集共有两个特征x1和x2,现在对该样本数据从二维降到一维,图中列了两个基向量u1和u2,样本集在两个向量的投影表示了不同的降维方法,哪种方法好,需要有评判标准:(1)降维前后样本点的总距离足够近,即最小投影距离;(2)降维后的样本点(投影)尽可能的散开,即最大投影方差 。因此,根据上面两个评判标准可知选择基向量u1较好。

我们知道了基向量的选择标准,下面介绍基于这两个评判标准来推导基向量:

(1)基于最小投影距离

假设有n个n维数据b72a699fcca52aca4c616e9909bec514.png,记为X。现在对该数据从n维降到m维,关键是找到m个基向量,假设基向量为{w1,w2,...,wm},记为矩阵W,矩阵W的大小是n×m。

原始数据在基向量的投影:52ad5de2c8197cff1a4860271f489b85.png

投影坐标计算公式:

e727a7bc5982ae4e8ffd031b4c397b30.png

根据投影坐标和基向量,得到该样本的映射点:

71457ea616e90b64e0dd3d399f95c846.png

最小化样本和映射点的总距离:

7d5cd6f53f0cca07690ea3731834c521.png

推导上式,得到最小值对应的基向量矩阵W,推导过程如下:

65172370b5fb3a8ff08908e231cc6b2a.png

58c6868127f9349077b503bb6900e505.png

5c426a213d9a750b2beddddcd680f349.png

238ef25f1147f6173f80c629e97e8025.png

3e2be785dec011859ccc7406c983d7b3.png

31f2395c34cbe0256a2a5a4b97e40889.png

所以我们选择2c91f22aed37fd2bcf4f285d30a6044c.png的特征向量作为投影的基向量 。

(2) 基于最大投影方差

我们希望降维后的样本点尽可能分散,方差可以表示这种分散程度。

2d111e71ba4e8626464a9a61ce929e75.png

如上图所示,5bd888c42f43bac371ca47d456dfd586.png表示原始数据,7376d418d94cb3a5bb568ac71b8a9195.png表示投影数据,e49d322dc5efe366cdc281dd1a217e67.png表示投影数据的平均值。所以最大化投影方差表示为:

c050c6462994051d8608e6d4d3711179.png

下面推导上式,得到相应的基向量矩阵W,推导过程如下:

88db2a8e6cb56988b05b6e1ef6fc69af.png

424b0110cd5ee8ed3ab92b56ce0e7e46.png

我们发现(4)式与上一节的(13)式是相同的。

因此,基向量矩阵W满足下式:

f40650bec1afa45e11ebc67e236ba392.png

小结:降维通过样本数据投影到基向量实现的,基向量的个数等于降维的个数,基向量是通过上式求解的。

4. 基向量个数的确定

我们知道怎么求解基向量,但是我们事先确定了基向量的个数,如上节的m个基向量,那么怎么根据样本数据自动的选择基向量的个数了?在回答这一问题前,简单阐述下特征向量和特征值的意义。

假设向量wi,λi分别为3df4e5d7c2667225a0a4225b8339e3b8.png的特征向量和特征值,表达式如下:

d9b71c06677a8f5eeb036c11264b1224.png

对应的图:

3c30aa1240f53e501ea8c15a82dcfee8.png

由上图可知,74682a7d65cbb9232ae752c0f593a9f0.png没有改变特征向量wi的方向,只在wi的方向上伸缩或压缩了λi倍。特征值代表了3b3a6cf063427d1310d77fa8c095945a.png在该特征向量的信息分量。特征值越大,包含矩阵51ccc1982c971b0a444b799365deaaf4.png的信息分量亦越大。因此,我们可以用λi去选择基向量个数。我们设定一个阈值threshold,该阈值表示降维后的数据保留原始数据的信息量,假设降维后的特征个数为m,降维前的特征个数为n,m应满足下面条件:

5e6eeaa80a29e9b001e3f91631f9ca5f.png

因此,通过上式可以求得基向量的个数m,即取前m个最大特征值对应的基向量 。

投影的基向量:

16b1123c3c4d75cfdaf882132a433fda.png

投影的数据集:

f009f1b32d1f67dd96ba3bb58c98c688.png

5. 中心化的作用

我们在计算协方差矩阵8d6159b21b108a064c2e2758497f1735.png的特征向量前,需要对样本数据进行中心化,中心化的算法如下:

68fab68975bfad3f81e32ddaee0ea582.png

中心化数据各特征的平均值为0,计算过程如下:

对上式求平均:

4b789b40b00d09a321fcd2dc55c73691.png

中心化的目的是简化算法,我们重新回顾下协方差矩阵,以说明中心化的作用 。

a6cb2ddb995caeec5ffbf13eadf723b6.png,X表示共有n个样本数。

每个样本包含n个特征,即:

bc07e8918753bf3232d560684b6b25c4.png

展开9478ddff55eb72b71b2ac36b49253226.png:

53cd5b2cc7a6bd29113be14b10ed5eb0.png

为了阅读方便,我们只考虑两个特征的协方差矩阵:

455586abed258fb21e4f82365050c89a.png

由(3)式推导(2)式得:

43c7b637a86ea9c940304390cfb6eef1.png

所以fb2636be2f1afc01662e5a44d66a4b51.png是样本数据的协方差矩阵,但是,切记必须事先对数据进行中心化处理 。

6. PCA算法流程

1)样本数据中心化。

2)计算样本的协方差矩阵ee72d9506fe6706752a208f2a382dee6.png

3)求协方差矩阵c2cefb4183ac1e60a1d3aaf6749249ac.png的特征值和特征向量,并对该向量进行标准化(基向量)。

3)根据设定的阈值,求满足以下条件的降维数m。

6da1429a36ed9e8015db882c33f8283e.png

4)取前m个最大特征值对应的向量,记为W。

778a72dba8972c8320ab30bb7b32ae52.png

5)对样本集的每一个样本be408b72eadcb6b1ff738fb0a1bd4690.png,映射为新的样本54b545957d56eb7cb30fa3c6e9b12ca8.png

3c2a7332274c66a93710a8b8b0189b06.png

6)得到映射后的样本集D'。

63dbc6dfa5c20fce9838045d3f80a8ba.png

7.核主成分分析(KPCA)介绍 

因为7be196129fc6fc147f27a0a574b538e2.png可以用样本数据内积表示:

efafee6e5e8436ff99dcf63f9a7b4802.png

由核函数定义可知,可通过核函数将数据映射成高维数据,并对该高维数据进行降维:

a08e85aecb6aa6075b236e7bdadfb2bb.png

KPCA一般用在数据不是线性的,无法直接进行PCA降维,需要通过核函数映射成高维数据,再进行PCA降维 。

8.PCA算法总结

PCA是一种非监督学习的降维算法,只需要计算样本数据的协方差矩阵就能实现降维的目的,其算法较易实现,但是降维后特征的可解释性较弱,且通过降维后信息会丢失一些,可能对后续的处理有重要影响。

参考

https://www.cnblogs.com/pinard/p/6239403.html#undefined

A Singularly Valuable Decompostion: The SVD of a Matrix

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

ff6dda96f453b42082423e21cf3f9f8d.png

32dee37d715810678fad37ae451ba3cc.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值