PCA主成分分析算法

沉住气CD

已于 2024-01-09 00:34:37 修改

阅读量1k

点赞数 19

CC 4.0 BY-SA版权

分类专栏：机器学习常用算法文章标签：算法机器学习人工智能数据挖掘

于 2024-01-09 00:33:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/PyDarren/article/details/135469592

本文详细介绍了PCA（主成分分析）在处理高维数据中的作用，通过特征值分解或SVD方法来降低维度，提取主要特征向量，以及如何通过去中心化和计算协方差矩阵来实现这一过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在数据分析中，如果特征太多，或者特征之间的相关性太高，通常可以用PCA来进行降维。比如通过对原有10个特征的线性组合, 我们找出3个主成分，就足以解释绝大多数的方差，该算法在高维数据集中被广泛应用。

算法（没时间看版本）：

将数据标准化，即把所有数据转换以原点为中心；

划一条通过原点的直线，将所有点投影到该直线上，然后计算这些投影点到原点的距离平方和。设想我们不停的转动该直线，最终找到一条直线使得这个距离平方和最大，也就是该直线最接近所有的点，该直线为特征向量的方向，称为PC1，这个距离平方和即为特征值；

按同样的方法，找到第二条直线，该直线与PC1垂直且距离平方和最大，为PC2；

重复该过程直到找到所有的PC；

根据需求，确定头部的几个PC可以解释绝大多数方差。

下面先给出几个相关的概念。

协方差和散度矩阵

样本均值：
$xˉ=1n∑i=1Nxi\bar{x} = \frac{1}{n} \sum_{i=1}^N x_i$
样本方差：
$S2=1n−1∑i=1n(xi−xˉ)2S^2=\frac{1}{n-1} \sum_{i=1}^n {(x_i-\bar{x})}^2$
样本X和样本Y的协方差：
$Cov(X,Y)=E[(X−E(X))(Y−E(Y))]=1n−1∑i=1n(xi−xˉ)(yi−yˉ)Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})$

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄7年

110
原创

700
点赞

1320
收藏

547
粉丝

关注

私信

分类专栏

工程开发 2篇
数据可视化 5篇
PyTorch 5篇
机器学习常用算法 11篇
NLP 3篇
统计学 12篇
python学习 17篇
R学习 11篇
数据库 7篇
爬虫 3篇
数据结构 19篇
深度学习 5篇

展开全部收起

上一篇：: 时间序列自相关性检验方法

下一篇：: 1. seaborn-可视化统计关系

最新评论

统计学之基础知识（数据分析准备）
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
利用R语言进行基本数据管理
沉住气CD: 强推ggplot2
R语言高级数据管理
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性；(3)使用更多的站内链接。
利用R语言进行基本数据管理
优快云-Ada助手: R语言中的数据可视化库有哪些？
利用R语言的dplyr包进行数据转换
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。