主成分分析PCA

真理的追求者

于 2017-10-15 09:23:41 发布

阅读量407

点赞数

分类专栏：数据分析

数据分析专栏收录该内容

3 篇文章

订阅专栏

本文深入探讨了主成分分析(PCA)的原理及其在数据降维中的应用。讲解了多重共线性、高维空间稀疏性等问题，并介绍了通过PCA去除噪声、发现数据模式的方法。此外，还详细阐述了PCA如何通过最大化样本方差实现降维，以及在实际操作中如何利用Jama包进行计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转载：http://www.cnblogs.com/zhangchaoyang/articles/2222048.html

转载：http://blog.jobbole.com/86905/

主成分分析PCA

关于为什么协方差的特征向量就是 k 维理想特征，有3个理论，分别是：

最大方差理论
最小错误理论
坐标轴相关度理论

降维的必要性

1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定，从而可能导致结果的不连贯。

2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间，而在十维空间上只有0.02%。

3.过多的变量会妨碍查找规律的建立。

4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。

降维的目的：

1.减少预测变量的个数

2.确保这些变量是相互独立的

3.提供一个框架来解释结果

降维的方法有：主成分分析、因子分析、用户自定义复合等。

PCA（Principal Component Analysis）不仅仅是对高维数据进行降维，更重要的是经过降维去除了噪声，发现了数据中的模式。

PCA把原先的n个特征用数目更少的m个特征取代，新特征是旧特征的线性组合，这些线性组合最大化样本方差，尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。

预备知识

样本X和样本Y的协方差(Covariance)：

协方差为正时说明X和Y是正相关关系，协方差为负时X和Y是负相关关系，协方差为0时X和Y相互独立。

Cov(X,X)就是X的方差(Variance).

当样本是n维数据时，它们的协方差实际上是协方差矩阵（对称方阵），方阵的边长是。比如对于3维数据(x,y,z)，计算它的协方差就是：

若，则称是A的特征值，X是对应的特征向量。实际上可以这样理解：矩阵A作用在它的特征向量X上，仅仅使得X的长度发生了变化，缩放比例就是相应的特征值。

当A是n阶可逆矩阵时，A与P^-1Ap相似，相似矩阵具有相同的特征值。

特别地，当A是对称矩阵时，A的奇异值等于A的特征值，存在正交矩阵Q（Q^-1=Q^T），使得：

对A进行奇异值分解就能求出所有特征值和Q矩阵。

,D是由特征值组成的对角矩阵

由特征值和特征向量的定义知，Q的列向量就是A的特征向量。

Jama包

Jama包是用于基本线性代数运算的java包，提供矩阵的cholesky分解、LUD分解、QR分解、奇异值分解，以及PCA中要用到的特征值分解，此外可以计算矩阵的乘除法、矩阵的范数和条件数、解线性方程组等。

再对测试样本进行降维的时候，一定要减去训练样本的均值，使用训练样本得到的转换矩阵，保证训练样本和测试样本转换到相同的样本空间中.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。