指标、变量的解释
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称作指标,在多元统计分析中也称为变量。
主成分分析产生原因
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和分析问题的复杂性。人们希望在进行定量分析过程中,涉及的变量较少,得到的信息量较多。
作用
将变量降维,保留对目标变量贡献较大的变量,忽略对目标变量贡献较小的变量。
作用原理
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量和相关矩阵的内部结构的关系研究,找出影响目标变量某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,使得我们在研究复杂目标变量评估问题时,容易抓住主要矛盾。
缺点
简单地进行线性处理就有可能导致对现实关系反映上的偏差。
缺点一
主成分分析的实施效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高,主成分分析的效果越好。当指标间相关性不大时,每一个主成分所提取的原始指标的信息通常很少,这时,为了满足累计方差贡献率不低于某一阈值,就有可能选取较多的主成分,此时的主成分分析的降维效果不明显。
缺点二
它只能处理“线性问题”,只是一种线性降维技术。一方面,对原始数据进行标准化处理后,协方差矩阵就变成了相关系数矩阵,这是上述主成分分析的出发点。然而,相关系数只能反映指标间“线性”相关程度。在现实生活中,指标间的关系也有呈非线性的,如果这时一定要用“线性”关系去反映,会得到不正确的结论。另一方面,主成分是原始指标的线性组合。然而有时主成分与原始指标也有呈非线性关系。
后记
应该如何筛选与人均预期寿命有关的指标呢?
不懂啊?
怎么筛选啊?
用SPSS。
那么那些检验方法咋确定?