0 引言
在统计学中,事物或现象之间的关系是通过变量间的关系反映出来的。变量间的关系分为确定性关系和非确定性关系两类。确定性关系即函数关系。然而在实际问题中,随机变量之间虽有某种关系,但这种关系却难以用精确的表示方法来描述(不像数学函数),那么这种非确定性关系即相关关系。
在科研中,经常需要分析两种现象或事物之间的关系,例如,百米跑成绩与跳远成绩间有无关系?如果有,其关系如何?百米跑成绩提高0.01s,跳远成绩将会受到何种影响?对于这类变量间关系的研究就属于相关与回归问题。
我们今天要学习的线性相关分析就是对两个变量之间有无和关系大小做出统计推断的方法。
分析两个变量之间有无关系我们常用两种方法:
1. 绘制散点图
考察相关性最简单而直观的方法就是在XOY直角坐标系上画出散点图,通过散点图可以看出两个变量间是否存在线性关系。通过散点图,我们可以绘制如下四种相关图形。
但是散点图只能大致描述两个变量之间是否存在关系,而不能够准确度量两个变量关系密切程度,因此我们我们会用数学上的方法去计算准确的相关关系。
2.计算r系数
对于两个连续型变量来说,描述两个变量之间直线关系的密切程度和相关方向的统计指标叫做相关系数,统计上也称为Pearson积矩相关系数。
样本线性相关系数一般用r表示、总体相关系数一般用p表示。相关系数没有单位,其取值范围为|r|≤1。
计算公式如下(不明白公式,可以感受一下,然后略过):