主成分分析法

最新推荐文章于 2022-10-03 11:57:20 发布

翻译最新推荐文章于 2022-10-03 11:57:20 发布 · 3.6k 阅读

文章标签：

#主成分分析法

概率论与数理统计专栏收录该内容

6 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

文章目录

指标、变量的解释
主成分分析产生原因
作用
作用原理
缺点
- 缺点一
- 缺点二
后记

指标、变量的解释

在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称作指标，在多元统计分析中也称为变量。

主成分分析产生原因

因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和分析问题的复杂性。人们希望在进行定量分析过程中，涉及的变量较少，得到的信息量较多。

作用

将变量降维，保留对目标变量贡献较大的变量，忽略对目标变量贡献较小的变量。

作用原理

因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。根据这一点，通过对原始变量和相关矩阵的内部结构的关系研究，找出影响目标变量某一要素的几个综合指标，使综合指标为原来变量的线性拟合。这样，综合指标不仅保留了原始变量的主要信息，且彼此间不相关，又比原始变量具有某些更优越的性质，使得我们在研究复杂目标变量评估问题时，容易抓住主要矛盾。

缺点

简单地进行线性处理就有可能导致对现实关系反映上的偏差。

缺点一

主成分分析的实施效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高，主成分分析的效果越好。当指标间相关性不大时，每一个主成分所提取的原始指标的信息通常很少，这时，为了满足累计方差贡献率不低于某一阈值，就有可能选取较多的主成分，此时的主成分分析的降维效果不明显。

缺点二

它只能处理“线性问题”，只是一种线性降维技术。一方面，对原始数据进行标准化处理后，协方差矩阵就变成了相关系数矩阵，这是上述主成分分析的出发点。然而，相关系数只能反映指标间“线性”相关程度。在现实生活中，指标间的关系也有呈非线性的，如果这时一定要用“线性”关系去反映，会得到不正确的结论。另一方面，主成分是原始指标的线性组合。然而有时主成分与原始指标也有呈非线性关系。