第七节 相关分析
前言
在之前的课程中,我们学习了正态环境下的差异分析,也学习了非正态环境下的差异分析。其中所涉及到的t检验、方差分析非参数检验等内容都是基于单变量研究的基础上进行分析的,那么这句话怎么理解呢?比如:单因素方差分析有一个检验变量和一个多分类变量。表面看来起是两个变量的研究,但其实不然,单因素方差分析的原理是将检验变量(目标变量)根据分组变量的不同选项划分为几组数据,然后对比不同组之间的均值差异。本质上划分出来的数据组还是属于原来的检验变量。因此,之前我们学习的差异分析内容都是基于单变量研究的现状性分析内容。
而从这一课开始,就将进入多变量关系研究的学习,也就意味着我们研究的目标变量不仅仅局限于一个了。开始探究多变量之间的关系。而我们本节课第一个部分所讲的内容——相关分析,是多变量研究的基础,是对变量之间关系研究的最初探索。随着学习的深入大家就会慢慢明白相关分析在统计学中的价值。
相关分析介绍:
相关分析是研究多变量之间关系的第一道门槛,而对于多变量之间的关系学习我们在初、高中就已经学习过。比如:圆的面积,S=πr2,一元函数,y=ax等,通过这些公式我们可以看出来当我对自变量给定一个值,那么对应的因变量也就确定了,比如我们给定圆的半径就能计算S,在函数里面知道x就能得到y,类似于这样的关系,我们称之为确定性关系。
但是,在现实中,并不是所有的变量关系都是确定性关系。就像经典台词“这个世界并不是非黑既白”。变量之间存在关系也不一定就是确定性关系,还有非确定性关系。而相关分析研究的就是这种非确定性关系。比如:收入水平和家庭支出之间的关系,首先收入水平和家庭支出之间有关系,这个是毋庸置疑的,但是家庭支出并不是只单纯受到收入水平的影响,还会受到其他很多因素的影响,因此,当我们确定一个家庭收入的值的时候,不一定能得到一个对应的家庭支出的值。类似于这样的关系叫做非确定性关系,这样的关系在统计学研究上非常多。因此,用一句话可以总结,相关分析可以分析变量之间是否有相关关系,但是并不能确定变量之间是否有影响关系。因此,在相关分析运用过程中,一般都是相关和回归同时出现,因为相关分析首先探究变量之间是否有关系,在有关系的基础上继续探究变量之间是否有确定性关系。因此,相关分析和回归分析之间有这样的关系,变量之间有相关关系但是并不一定有影响关系。如果变量之间有影响关系,那么一定会存在相关关系。
相关分析的公式及检验流程:
相关分析只研究非确定性的相关关系,因此检验流程和实现方式没有回归分析那么难,只需要通过公式进行计算即可。
第一步先计算出相关系数:
计算公式:(根据数据类型及是否满足正态分布,相关系数主要有三种计算公式)
1、Pearson相关分析:

适用于检验变量都是满足正态分布的连续型随机变量。
2、Spearman相关分析:

其中(Ui-Vi)代表每一组对应数据的秩差(排序差)。
适用非正态的连续型随机变量或者等级资料
3、Kendall τ相关系数:

U为一致对数目:

V为非一致对数目:

其中d为秩。
Kendall相关系数同样适用于数据为非正态的连续型随机变量和等级资料之间的相关分析。
第二步:提出原假设和计算检验统计量
相关分析也是通过样本数据推断总体的分析方法,因此假设为:H0:ρ=0,H1:ρ≠0(ρ为总体的相关系数)

我们将第一个步骤里面计算出来的相关系数带入各自的对应公式即可计算出检验统计量,再根据检验统计量计算出概率p值就可以判断原假设是否成立。
关于相关系数的说明:
用Pearson相关分析、Spearman相关分析和Kendall相关分析计算出来的相关系数,取值范围都是在-1到+1之间。计算结果的绝对值越接近1说明相关程度越大,明变量之间存在影响关系的可能越大。当相关系数达到+1或者-1的时候,说明两个变量之间完全相关,存在影响关系(确定性关系)。相关系数绝对值越接近0,说明相关性越弱。相关系数等于0的时候说明变量之间不存在相关关系。
当|相关系数|≥0.8,说明存在高度相关关系,0.5≤|相关系数|<0.8为中度相关。0.3≤|相关系数|<0.5为低度相关,当|相关系数|<0.3时为极弱相关。
案例:
现需要研究目的地区公务员职业幸福感的相关因素,在通过文献探讨阶段初步拟定与职业幸福感可能存在的相关因素有组织支持和职业认同,现通过量表的形式进行数据的采集,随机收集了320份样本数据,请采用合适的统计学分析方法对变量之间的相关关系进行探索。最终得出结论。
解析:首先确定数据的类型以及分布形态,其次选择合适的方法进行相关系数的计算,接着再通过公式计算出相关的检验统计量,判断关系是否成立。




皮尔逊相关性结果最精确,因为另外两个用了秩来计算,会有偏差。


相关分析是统计学中研究变量间非确定性关系的方法,包括Pearson、Spearman和Kendallτ相关系数,适用于不同数据类型和分布。相关系数衡量变量间的关联程度,从-1到1,越高表示相关性越强。案例展示了如何分析公务员职业幸福感与组织支持、职业认同的相关性。

被折叠的 条评论
为什么被折叠?



