机器学习——PCA降维

最新推荐文章于 2025-05-10 00:11:18 发布

栀沫-x

最新推荐文章于 2025-05-10 00:11:18 发布

阅读量3.2k

点赞数 18

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_74731967/article/details/139757892

版权

目录

一、算法概述

1.1什么是降维

1.2为什么要降维

1.3降维实现原理

1.4降维的方法

1.4.1主成分分析（PrincipalComponentAnalysis,PCA）

1.4.2因子分析（Factor Analysis）

1.4.3独立成分分析（Independent Component Analysis, ICA）

二、主成分分析法（PCA）

2.1主成分分析(PCA)基本思路

2.2PCA算法的实现步骤

2.3协方差矩阵

四、算法应用

4.1人脸识别降维

5.1PCA算法的优点

5.2PCA算法的缺点

5.3PCA的应用:

5.4PCA的局限性:

一、算法概述

1.1什么是降维

降维的概念：

①降维(Dimensionality Reduction，DR)是指采用线性或者非线性的映射方法将高维空间的样本映射到低维空间中。

②降维获得低维空间的数据等价表示，实现高维数据的可视化呈现。

1.2为什么要降维

降维的作用：

①在原始的高维空间中，包含有冗余信息以及噪声信息。图像识别中如果噪声太多会造成误差降低识别准确率;通过降维，可以减少冗余信息所造成的误差，提高识别的精度、降低算法开
销。

②通过降维可以寻找数据内部的本质结构特征。

③降维可以得到原始数据的简化表示以加速后续处理或者改进输出结果，即降维可以得到原始数据的简化表示以加速后续处理或者改进输出结果，因此它已经成为很多算法数据进行预处理的重要手段。

1.3降维实现原理

在降维过程中，会减少特征的数量，这意味着删除数据，数据量变少则表示模型可以获取的信息会变少，模型的表现可能会因此受影响。同时，在高维数据中，必然有一些特征是不带有效的信息的（比如噪音），或者有一些特征带有的信息和其他一些特征是重复的（比如一些特征可能会线性相关）。

我们希望能够找出一种办法来帮助我们衡量特征上所带的信息量，让我们在降维的过程中，能够既减少特征的数量，又保留大部分有效信息——将那些带有重复信息的特征合并，并删除那些带无效信息的特征等等——逐渐创造出能够代表原特征矩阵大部分信息的，特征更少的，新特征矩阵。

1.4降维的方法

1.4.1主成分分析（PrincipalComponentAnalysis,PCA）

1.4.2因子分析（Factor Analysis）

因子分析是一种统计方法，用于揭示观察变量之间的潜在结构或模式。其基本思想是，观察变量可以通过较少数量的未观察的变量，称为因子，来解释或表示。这些因子是隐含在观察变量背后的共性因素，能够帮助理解数据中的相关性和变量之间的复杂关系。

1.4.3独立成分分析（Independent Component Analysis, ICA）

独立成分分析是一种信号处理和统计方法，旨在从多个随机变量的混合中分离出独立的非高斯信号成分。其核心思想是，将混合信号分解为几个相互独立的信号源，这些信号源具有最大的互信息（相互信息量）。

二、主成分分析法（PCA）

2.1主成分分析(PCA)基本思路

-通过协方差分析，建立高维空间到低维空间的线性映射/矩阵

-保留尽可能多的样本信息

-压缩后的数据对分类、聚类尽量不产生影响，甚至有所提升

2.2PCA算法的实现步骤

①将原始数据按行组成m行n列的矩阵X，将X的每一列(代表一个属性字段)进行零均值化，即减去这一列的均值;
③求出协方差矩阵;
④求出协方差矩阵的特征值及对应的特征向量r;
⑤将特征向量按对应特征值大小从左到右按列排列成矩阵，取前k列组成矩阵P⑥计算降维到k维的数据。

2.3协方差矩阵

方差描述一个数据的

最低0.47元/天解锁文章

博客等级

码龄3年

8
原创

196
点赞

492
收藏

99
粉丝

关注

私信

热门文章

上一篇：: 机器学习——支持向量机（SVM）

最新评论

机器学习——决策树（DT）原理，ID3算法、C4.5算法python实现案例
ArsenaloveWenger: 应该是吧
机器学习——决策树（DT）原理，ID3算法、C4.5算法python实现案例
ArsenaloveWenger: 非常好的帖，使我很容易理解
机器学习——决策树（DT）原理，ID3算法、C4.5算法python实现案例
482: UP，不好意思，我想问一下C4.5算法那里的计算数据集的熵的那个板块那里是不是放错代码段了
机器学习——贝叶斯定理
ISaaCSun__: 最后那个条件概率是什么条件下什么的概率？还有在这个案例下贝叶斯公式的分母是什么
机器学习——k-近邻算法原理实现
优快云-Ada助手: 这是一篇很有深度和实用性的博文，对k-近邻算法的原理和实现进行了详细的介绍和讲解，让读者能够更好地理解和运用这一算法。除了学习和实践k-近邻算法，你还可以进一步了解其他常见的机器学习算法，比如决策树、支持向量机等，以便更全面地掌握机器学习领域的知识。同时，也可以深入研究特征工程、模型评估和调参等相关技能，这些都是提升机器学习算法效果和应用能力的重要环节。希望你能继续保持创作的热情，分享更多有价值的内容！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。