白话机器学习算法（六） PCA

最新推荐文章于 2022-12-13 20:53:20 发布

wangxin110000

最新推荐文章于 2022-12-13 20:53:20 发布

阅读量2.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习/数据挖掘文章标签：白话机器学习算法 PCA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wangxin110000/article/details/22175041

PCA（主成分分析）是一种线性映射技术，用于降维。通过构造新坐标系使数据的方差最大化，PCA能保留原始数据的主要信息。它通过协方差矩阵的特征值分解来找到正交的特征向量。PCA适用于数据预处理，减少冗余特征，但不改变数据分类。与LDA不同，PCA主要关注数据的欧氏距离。在降维后，PCA保持了原空间中两点的距离关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PCA是一种线性映射，目的是为了降维。

在机器学习算法中，映射可以降维也可以升高维度，看最终的目的是什么，如果为了简化输入特征，可以降维，如果数据在低维线性不可分，可以考虑将数据映射到高维空间中，那样可能就线性可分了，这就是核方法。

PCA属于前者；

讲PCA之前我要提几个概念

1：投影

2：协方差

3：正交向量

对于1，投影是一个标量，如果我们说 A在B方向上的投影，就是表示，A中的B分量的大小。这里B仅仅代表方向而没有长度，B是一个单位向量；

怎样算投影呢，就是求内积！

对于2，一般我们知道对于单个随机变量，有方差这个概念，当把单个随机变量推广到两个的时候，就有了协方差；

对于3，空间可以看成是若干正交向量张成的空间，该空间上的任意一个点都可以用这些正交向量加权起来；

现在我们有若干向量，这些向量呢，可以看成是一个高维随机向量的若干观测值，因而就有了均值，协方差的概念；

假设现在有个向量集合，每个向量就是一个观测值，有D个维度，我们观测M次；数据就可以用D乘以M的矩阵来表示，矩阵的一列就是一个观测结果；

现在用一个映射矩阵左乘这个数据矩阵，相当于将数据矩阵进行了映射，得到原来数据矩阵在新空间上的投影，也就有原数据在新的坐标空间上的表示，这个映射的目的是，使得映射结果属性间无关，而且第一行的方差>第二行的方差>.....>最后一行的方差；这么做可以保留数据的个性，剔除数据的共性，去除属性间的相关性；

去除属性间的相关性是通过映射矩阵每行的正交性获得；

映射矩阵如何获得？

对原数据的协方差矩阵进行特征值分解，将获得的正交化的特征向量，按照对应特征值由大到小按行排列就能得到；

PCA的思想就是坐标变换，通过构建一个新的正交空间，重新构建原数据，这个思想跟傅里叶变换是一致的，说白了，就是换一种表示方法；

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。