PCA和SVD区别和联系

本文探讨PCA(主成分分析)和SVD(奇异值分解)的区别与联系。PCA寻找正交属性空间的主成分方向,保证样本点的最近重构性和最大可分性。SVD不仅可以获取主成分,还能用于计算矩阵的伪逆,且在数值稳定性上优于PCA。LSI(隐语义索引)常基于SVD进行降维。SVD在处理某些矩阵时,如Lauchli矩阵,能提供PCA可能丢失的精度。

参考:http://blog.youkuaiyun.com/wangjian1204/article/details/50642732

http://www.cnblogs.com/lzllovesyl/p/5243370.html

PCA

PCA

图1.寻找主成分方向

对于正交属性空间的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当表达?

  1. 最近重构性:一样本点到这个超平面的距离都足够近
  2. 最大可分性:样本点在这个超平面上的投影尽可能分开




SVD

如果对矩阵M做奇异值矩阵分解(SVD分解): 

M=USV


区别与联系

SVD另一个方向上的主成分

    SVD可以获取另一个方向上的主成分,而PCA只能获得单个方向上的主成分: 

1nXX=1nU
### 主成分分析 (PCA) 奇异值分解 (SVD) #### PCA 的工作原理及其应用 主成分分析是一种用于降维的技术,其目标是在保留尽可能多的信息的同时减少数据集的维度。通过计算协方差矩阵并找到最大化的方向向量(即主成分),可以实现这一点。每个主成分对应于原始变量的一个线性组合,并按照它们所解释的数据总变异的比例排序。 对于给定的数据集,`explained_variance_ratio_` 属性提供了各主成分对方差贡献的具体数值[^1]: ```python import numpy as np from sklearn.decomposition import PCA np.set_printoptions(precision=3, suppress=True) pca = PCA() # 计算 explained variance ratio... print(pca.explained_variance_ratio_) ``` 这种方法特别适用于可视化高维数据、去除噪声或作为其他机器学习模型之前的预处理步骤。 #### SVD 的工作机制及其用途 奇异值分解则提供了一种不同的视角来看待相同的问题——它不是直接寻找最佳投影轴,而是将输入矩阵 \( A \in R^{m\times n} \) 分解成三个部分:两个正交矩阵 U V 转置以及中间对角阵 Σ 。其中Σ包含了所谓的“奇异值”,反映了原矩阵的重要程度;而UV分别代表左奇异性向量与右奇异性向量。 这种技术同样能够帮助我们理解复杂结构化信息的本质特征[^3]。例如,在图像压缩场景下,可以通过截断较小的奇异值得到近似版本从而节省存储空间而不明显影响质量。 #### PCASVD 的对比 尽管两者都涉及到降低维度的概念,但存在一些关键差异: - **目的不同**: PCA旨在最大化样本间的距离度量标准下的离散度;相比之下,SVD关注的是重构误差最小化. - **适用范围各异**: 当仅需考虑单个表征时可选用前者; 若涉及多个关联表格,则后者更为合适. - **输出形式有所区别**: 经过PCA变换后的坐标系通常具有直观的意义(如第一主元往往指示着最重要的变化趋势);然而经由SVD得到的结果可能缺乏类似的解释力除非进一步转换为特定上下文内的含义.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值