相关性,简单说来是两个变量之间 “相互关联、相互影响” 的程度,核心是描述一个变量变化时,另一个变量是否会跟着变化、如何变化。按照关联形式可分为两类。
表 1 线性相关与非线性相关
|
类别 |
具体描述 |
|
线性相关 |
变量变化的关联趋势能通过 “一条直线” 描述,比如 “学习时间” 和 “考试分数” 的正相关(时间增、分数增,趋势接近直线) |
|
非线性相关 |
变量变化的关联趋势不能用直线描述,只能用曲线、周期等形式描述。比如 “商品价格” 和 “消费者购买意愿”,价格很低时,价格略涨购买意愿不变;价格超过某个值后,价格再涨购买意愿会骤降,趋势呈曲线。 |
通过图 1 六种常见相关性图[1],我们可理解常见的六种相关性。

图 1 六种常见相关性图[1]
图形中相关术语的解读如下:
表 2 六种相关性图的关键术语解释
|
关键术语 |
具体描述 |
|
完全相关 |
所有散点完全被拟合,一个变量的数值确定时,另一个变量的取值也确定,呈现函数关系。 |
|
正相关 |
两个变量同增同减,即,一个变量数值增加,另一个变量数值也增加。 |
|
负相关 |
两个变量反向增减,即,一个变量数值增加,另一个变量数值减少。 |
|
线性相关 |
变量之间的关系近似地表现为一条直线。 |
|
非线性相关 |
变量之间的关系近似地表现为一条曲线。 |
|
不相关 |
两个变量的观测点很分散,无任何规律。 |
相关系数,常记作r,取值在[-1,1]。
r的绝对值为1时表示完全相关,越趋近于1代表越线性相关,一般认为,r>=0.7说明相关程度极高;r介于0.4~0.7说明相关程度中等;r介于0.2~0.4说明相关程度较低,r<0.2通常认为不具有线性相关性。但以上分界值不唯一,有时候也可能以0.3、0.5、0.8作为分界线。【注意!r趋于0不一定代表一定不相关,如图 1 六种常见相关性图中“非线性相关”的r趋于0,但变量之间存在曲线相关(非线性相关)】。
r取值为正,表明变量之间为正相关;取值为负,为负相关。
根据数据类型和分布的不同,常见的相关分析有不同的适用性。
表 3 三种常见相关系数
|
分类 |
具体解释 |
|
Pearson(皮尔逊) 线性相关系数 |
评估两个连续变量之间的线性关系,属于参数统计方法,被研究的数据需要尽量符合正态分布。它测量了两个变量之间的协方差与各自标准差乘积的比例。 |
|
Spearman(斯皮尔曼) 等级相关系数 |
基于秩次(排名)的相关系数分析,属于非参数统计方法,它衡量的是两个变量之间单调关系的程度。这意味着即使两个变量不是线性相关的,只要它们随着彼此增加或减少,斯皮尔曼相关系数也能捕捉到这种单调关系。此方法也能很好处理有极端异常值的情况,因为只关注数据的秩次。 |
|
Kendall-tau(肯德尔 涛) 等级相关系数 |
衡量两个变量之间的单调(即一致增加或减少)关系,非参数统计方法,更适用于序数数据(按照某种顺序排列的类别时,例如教育水平(小学、中学、大学等),或者评分等级(差、中、好)和存在结的数据(数据中有许多相同值)。 |
附注:参数统计指的是被研究数据需要符合一定的分布,而非参数统计则不需要数据满足一定分布。
某仓库记录了员工的平均每日工作时长和仓库该日的拣货量,如表 4 Pearson、Spearman案例分析数据所示。现探究工作时长与拣货量的相关性强弱。
表 4 Pearson、Spearman案例分析数据
|
日期 |
每日工作时长(小时) |
拣货总量(件) |
|
第 1 天 |
8.2 |
465 |
|
第 2 天 |
7.8 |
420 |
|
第 3 天 |
9.9 |
498 |
|
第 4 天 |
6.5 |
342 |
|
第 5 天 |
10.2 |
555 |
|
第 6 天 |
8.8 |
517 |
|
第 7 天 |
7.2 |
404 |
|
第 8 天 |
9 |
472 |
|
第 9 天 |
11.5 |
616 |
|
第 10 天 |
6.8 |
401 |
|
第 11 天 |
8.5 |
465 |
|
第 12 天 |
10.8 |
578 |
|
第 13 天 |
7.5 |
423 |
|
第 14 天 |
9.2 |
506 |
|
第 15 天 |
8.6 |
439 |
|
第 16 天 |
9.7 |
577 |
|
第 17 天 |
6.2 |
331 |
|
第 18 天 |
8.6 |
487 |
|
第 19 天 |
9.8 |
522 |
|
第 20 天 |
7 |
398 |
|
第 21 天 |
10.5 |
582 |
|
第 22 天 |
8.3 |
434 |
|
第 23 天 |
9.6 |
520 |
|
第 24 天 |
7.9 |
433 |
|
第 25 天 |
11.2 |
593 |
|
第 26 天 |
6.7 |
372 |
|
第 27 天 |
8.9 |
506 |
|
第 28 天 |
10 |
530 |
|
第 29 天 |
7.3 |
411 |
|
第 30 天 |
9.4 |
493 |
Pearson相关分析是参数统计方法,需要被研究的数据基本符合正态分布,所以先通过SPSSAU—可视化—P-P/Q-Q图功能来检验数据的正态分布性。

图 2 P-P图正态分布验证操作
如果P-P分析结果中散点图近似呈现为一条对角直线,则说明数据呈现出正态分布。反之则说明数据非正态。通过下图可得,两个指标均符合正态分布。


图 3 P-P图分析结果
通过“通用方法”—“相关”模块进行分析,本案例重点关注“每日工作时长”作为自变量和因变量“拣货总量”的影响,所以将前者放入“分析项X”,将后者放入“分析项Y”。操作如图 4 皮尔逊分析操作所示。

图 4 皮尔逊分析操作
当想研究多个指标两两之间的相关关系时,即构造相关系数矩阵,可将所有指标放在同一个框中。若多个指标中有区分因变量和自变量时,则对应放入框内。
拣货总量(件)和每日工作时长(小时)之间的相关系数值为0.967,并且呈现出0.01水平的显著性(P<0.01)。P值的通过说明该结论具有统计学意义,r值趋近于1表明拣货总量(件)和每日工作时长(小时)之间有着显著的正相关关系。
表 5 Pearson相关-标准格式
|
拣货总量(件) | |
|
每日工作时长(小时) |
0.967** |
|
*p<0.05 **p<0.01 | |
从理论上讲,数据分布呈现出不正态时则使用Spearman相关系数,但无论是Pearson或者Spearman相关系数,其实际依旧是研究相关关系,结论上并不会有太大区别;并且数据正态分布通常在理想状态下才会成立。因而现实研究中使用Pearson相关系数的情况占绝大多数。
同样采取上述pearson案例数据。
-
- SPSSAU操作
由于斯皮尔曼等级相关分析关注的是秩次,属于非参数统计方法,所以无需进行标准正态分布检验。直接选择spearman分析法即可,如图 5 斯皮尔曼分析操作所示。

图 5 斯皮尔曼分析操作
P值<0.01,具有统计学意义,r值为0.972,趋近于1,表明高度正线性相关。
表 6 Spearman相关-标准格式
|
拣货总量(件) | |
|
每日工作时长(小时) |
0.972** |
|
*p<0.05 **p<0.01 | |
某企业人力资源部门想探究员工的“每周加班时长”“团队协作表现”“任务完成效率”与“季度绩效评级”之间的关联。数据如表 7 员工表现数据所示。
表 7 员工表现数据
|
员工 ID |
加班时长 |
团队协作 |
完成效率 |
绩效评级 |
|
1 |
中等 |
经常配合 |
高效 |
良好 |
|
2 |
较少 |
极少配合 |
一般 |
合格 |
|
3 |
极多 |
主动主导协作 |
极高效 |
优秀 |
|
4 |
极少 |
从不配合 |
低效 |
不合格 |
|
5 |
较多 |
偶尔配合 |
高效 |
良好 |
|
6 |
中等 |
偶尔配合 |
一般 |
中等 |
|
7 |
较少 |
经常配合 |
一般 |
合格 |
|
8 |
极多 |
经常配合 |
极高效 |
优秀 |
|
9 |
极少 |
极少配合 |
较低效 |
合格 |
|
10 |
较多 |
主动主导协作 |
极高效 |
优秀 |
|
11 |
中等 |
极少配合 |
一般 |
中等 |
|
12 |
较少 |
偶尔配合 |
较低效 |
合格 |
在使用SPSSAU进行kendall分析前,需要让平台能识别数据的“顺序”,所以需要对原始数据中的有序数据进行“数据编码”的预处理,按照从小到大(从低到高、从弱到强等关系)对原文字内容进行排序。图 6 数据编码操作展示其中一个字段的处理方式,使用的是模块“数据处理”—“数据编码”。

图 6 数据编码操作
4 个字段的等级定义如下:
|
字段 |
编码等级 |
|
每周加班时长 |
按加班时间从少到多分为 5 级 —— 极少(<5 小时)、较少(5-10 小时)、中等(11-15 小时)、较多(16-20 小时)、极多(>20 小时) |
|
团队协作表现 |
按协作积极性从低到高分为 5 级 —— 从不配合、极少配合、偶尔配合、经常配合、主动主导协作 |
|
任务完成效率 |
按效率从低到高分为 5 级 —— 低效(常拖延)、较低效(偶尔拖延)、一般(按时完成)、高效(提前完成)、极高效(超额提前完成) |
|
季度绩效评级 |
按绩效从低到高分为 5 级 —— 不合格、合格、中等、良好、优秀 |
按照上述分类对所有字段进行编码后,会默认出现以“New”开头的新字段,那些字段就是在不覆盖原始数据情况下,经过数据编码后对应的数据。

图 7 数据编码处理结果
SPSSAU相关分析时,下拉参数中Kendall相关具体为Kendall tub_b。由于我们因素较多,我们可以研究两两之间的相关系数矩阵,将所有字段放在同一个框中,如图 8 Kendall相关系数矩阵的操作所示。

图 8 Kendall相关系数矩阵的操作
或将绩效评级作为更为关注的结果变量(因变量Y),而其他字段作为自变量X,如图 9 Kendall考虑因变量的分析操作所示。

图 9 Kendall考虑因变量的分析操作
当全部字段都放在一个框时,会生成相关系数矩阵,即反映字段两两之间的相关关系。
表 8 相关系数矩阵:Kendalls相关-详细格式
|
New_绩效评级 |
New_完成效率 |
New_团队协作 |
New_加班时长 | ||
|
New_绩效评级 |
相关系数 |
1 | |||
|
p值 |
- | ||||
|
样本量 |
- | ||||
|
New_完成效率 |
相关系数 |
0.927** |
1 | ||
|
p值 |
0.000 |
- | |||
|
样本量 |
12 |
- | |||
|
New_团队协作 |
相关系数 |
0.703* |
0.739** |
1 | |
|
p值 |
0.011 |
0.006 |
- | ||
|
样本量 |
12 |
12 |
- | ||
|
New_加班时长 |
相关系数 |
0.911** |
0.875** |
0.619* |
1 |
|
p值 |
0.000 |
0.000 |
0.032 |
- | |
|
样本量 |
12 |
12 |
12 |
- | |
|
*p<0.05 **p<0.01 | |||||
-
-
- X与Y单独分析方式
-
当以“绩效评级”作为Y变量来分析时,结果如表 9 X与Y单独分析:Kendalls相关-详细格式所示,可见在P<0.05的条件下,全部相关系数都具有统计学意义,且皆大于0.7(如完成效率与绩效评级的相关系数为0.927、团队协作与绩效评级的相关系数为0.703、加班时长与绩效评级的相关系数为0.911),代表它们都与Y变量(绩效评级)高度相关。
表 9 X与Y单独分析:Kendalls相关-详细格式
|
New_绩效评级 | ||
|
New_完成效率 |
相关系数 |
0.927** |
|
p值 |
0.000 | |
|
样本量 |
12 | |
|
New_团队协作 |
相关系数 |
0.703* |
|
p值 |
0.011 | |
|
样本量 |
12 | |
|
New_加班时长 |
相关系数 |
0.911** |
|
p值 |
0.000 | |
|
样本量 |
12 | |
|
*p<0.05 **p<0.01 | ||
相关分析开始前先观察原始数据的类型,决定采用的分析方法。一般说来,定量数据与定量数据的分析常考虑的是Pearson相关分析;定量数据与定类数据可考虑Spearman等级相关分析;而定类数据与定类数据常用Kendall相关分析。
- “生成完全正相关、完全负相关、正相关、负相关、不相关、非线性相关的六个图”提示词,豆包,生成于2025-10-21.
- 相关分析,SPSS在线网,https://spssau.com/helps/universalmethod/correlation.html.
三类相关系数解析与应用

被折叠的 条评论
为什么被折叠?



