主成分分析PCA

原创

已于 2024-01-01 15:13:56 修改

· 851 阅读

·

10

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #机器学习

于 2024-01-01 15:10:43 首次发布

目录

一、PCA相关概念

1、什么是PCA？

2、特征维度约减的概念与目的

3、主成分分析的主要步骤

二、PCA的简单实现

2、选取一个二维数据

3、查看数据分布情况

4、中心化数据

5、求协方差矩阵

6、求特征值及特征向量

7、对特征值进行从大到小排序并取最大的n个特征值下标

8、最大的n个值对应的特征向量及低维数据的重构

9、输出原数据投影到选取的特征向量的值

一、PCA相关概念

1、什么是PCA？

在数据集提供丰富信息的同时，数据之间也存在大量相关性从而会增加问题分析的复杂性。所以需要找到一种合理的方法，在减少需要分析的指标同时，尽量减少原指标包含信息的损失，以达到对所收集数据进行全面分析的目的。

由于各变量之间存在一定的相关关系，因此可以考虑进行特征维度约减，即将关系紧密的变量变成尽可能少的新变量（即降维），使这些新变量是两两不相关的，那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息，以便找到需要的主成分特征。主成分分析（PCA）与因子分析就属于这类降维算法。

主成分分析（PCA）是一种常用的数据降维方法，可以将高维数据转换为低维空间，同时保留原始数据中最具代表性的信息。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。

2、特征维度约减的概念与目的

特征维度约减——将给定的n个样本（每个样本维度为p维）通过特征变换和映射矩阵高维空间映射到低维子空间

原始数据： $X\in R^{p*1}$

进行线性变化（与 $G^{T}\in R^{d*p}$ 求内积）得到约减后的数据： $Y\in R^{d}$

目的：使机器学习算法在高位空间中表现更具鲁棒性，筛选出有价值的维度（有价值点位有限）

可视化、高效存储和检索、噪声消除

3、主成分分析的主要步骤

对白数据进行线性拉伸S（得主成分1）和线性旋转R（得主成分2）得出特征向量

3.1求出所有值的均值，然后将所有案例都减去该均值

$X-\bar{X}$

中心化后均值都为0

3.2求样本的协方差矩阵

原数据的协方差为：

$C=\begin{bmatrix} cov(x,x) &cov(x,y) \\ cov(x,y)& cov(y,y) \end{bmatrix}$

$=\frac{1}{n-1}\begin{bmatrix} x_{1} &x_{2} \\ y_{1}& y_{2} \end{bmatrix}\begin{bmatrix} x_{1} &y_{1} \\ x_{2} & y_{2} \end{bmatrix}=\frac{1}{n-1}DD^{T}$

最低0.47元/天解锁文章

博客等级

码龄4年

12
原创

59
点赞

110
收藏

41
粉丝

关注

私信

热门文章

分类专栏

人工智能学习历程 5篇
java 1篇

展开全部收起

上一篇：: 支持向量机SVM——线性分类

最新评论

Logisitic回归——房价预测
1129S: 就是回归曲线啊bro 回归计算完用isclose函数判断误差区间在区间内判断01选项
Logisitic回归——房价预测
奇葩想的: 不对啊，最后那个判断不应该这样子吧，应该以回归曲线为目标进行判断
朴素贝叶斯——垃圾邮件分类
1129S: yeah 只有需要用的库没放进来其他都是全的你import补上就行了
朴素贝叶斯——垃圾邮件分类
2403_85940675: 哥，总代码就是每一步的代码加起来吗？是齐全的吗
支持向量机SVM——线性分类
优快云-Ada助手: 恭喜您在博客中分享了关于支持向量机SVM的线性分类知识！您的持续创作让读者们获益良多。我非常期待您未来更多博客的发布，希望您能继续分享更多关于机器学习领域的知识。如果可能的话，我建议您可以考虑深入探讨SVM在非线性分类问题上的应用，这将为读者们提供更全面的视角。再次感谢您的分享！

大家在看

2025B卷最新华为OD机试,独家整理总结上岸技巧,考试题库清单(Python/JS/C/C++/JAVA/GO)持续收录中 270

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。