变量之间相关关系研究,三类相关系数解读与实例分析

三类相关系数解析与应用

相关性,简单说来是两个变量之间 “相互关联、相互影响” 的程度,核心是描述一个变量变化时,另一个变量是否会跟着变化、如何变化。按照关联形式可分为两类。

表 1 线性相关与非线性相关

类别

具体描述

线性相关

变量变化的关联趋势能通过 “一条直线” 描述,比如 “学习时间” 和 “考试分数” 的正相关(时间增、分数增,趋势接近直线)

非线性相关

变量变化的关联趋势不能用直线描述,只能用曲线、周期等形式描述。比如 “商品价格” 和 “消费者购买意愿”,价格很低时,价格略涨购买意愿不变;价格超过某个值后,价格再涨购买意愿会骤降,趋势呈曲线。

通过图 1 六种常见相关性图[1],我们可理解常见的六种相关性。

1 六种常见相关性图[1]

图形中相关术语的解读如下:

表 2 六种相关性图的关键术语解释

关键术语

具体描述

完全相关

所有散点完全被拟合,一个变量的数值确定时,另一个变量的取值也确定,呈现函数关系。

正相关

两个变量同增同减,即,一个变量数值增加,另一个变量数值也增加。

负相关

两个变量反向增减,即,一个变量数值增加,另一个变量数值减少。

线性相关

变量之间的关系近似地表现为一条直线。

非线性相关

变量之间的关系近似地表现为一条曲线。

不相关

两个变量的观测点很分散,无任何规律。

    1. 相关系数

相关系数,常记作r,取值在[-1,1]。

r的绝对值为1时表示完全相关,越趋近于1代表越线性相关,一般认为,r>=0.7说明相关程度极高;r介于0.4~0.7说明相关程度中等;r介于0.2~0.4说明相关程度较低,r<0.2通常认为不具有线性相关性。但以上分界值不唯一,有时候也可能以0.3、0.5、0.8作为分界线。【注意!r趋于0不一定代表一定不相关,如图 1 六种常见相关性图中“非线性相关”的r趋于0,但变量之间存在曲线相关(非线性相关)】。

r取值为正,表明变量之间为正相关;取值为负,为负相关。

    1. 三种常见相关系数

根据数据类型和分布的不同,常见的相关分析有不同的适用性。

表 3 三种常见相关系数

分类

具体解释

Pearson(皮尔逊)

线性相关系数

评估两个连续变量之间的线性关系,属于参数统计方法,被研究的数据需要尽量符合正态分布。它测量了两个变量之间的协方差与各自标准差乘积的比例。

Spearman(斯皮尔曼)

等级相关系数

基于秩次(排名)的相关系数分析,属于非参数统计方法,它衡量的是两个变量之间单调关系的程度。这意味着即使两个变量不是线性相关的,只要它们随着彼此增加或减少,斯皮尔曼相关系数也能捕捉到这种单调关系。此方法也能很好处理有极端异常值的情况,因为只关注数据的秩次。

Kendall-tau(肯德尔 涛)

等级相关系数

衡量两个变量之间的单调(即一致增加或减少)关系,非参数统计方法,更适用于序数数据(按照某种顺序排列的类别时,例如教育水平(小学、中学、大学等),或者评分等级(差、中、好)和存在结的数据(数据中有许多相同值)。

附注:参数统计指的是被研究数据需要符合一定的分布,而非参数统计则不需要数据满足一定分布。

某仓库记录了员工的平均每日工作时长和仓库该日的拣货量,如表 4 Pearson、Spearman案例分析数据所示。现探究工作时长与拣货量的相关性强弱。

4 Pearson、Spearman案例分析数据

日期

每日工作时长(小时)

拣货总量(件)

第 1 天

8.2

465

第 2 天

7.8

420

第 3 天

9.9

498

第 4 天

6.5

342

第 5 天

10.2

555

第 6 天

8.8

517

第 7 天

7.2

404

第 8 天

9

472

第 9 天

11.5

616

第 10 天

6.8

401

第 11 天

8.5

465

第 12 天

10.8

578

第 13 天

7.5

423

第 14 天

9.2

506

第 15 天

8.6

439

第 16 天

9.7

577

第 17 天

6.2

331

第 18 天

8.6

487

第 19 天

9.8

522

第 20 天

7

398

第 21 天

10.5

582

第 22 天

8.3

434

第 23 天

9.6

520

第 24 天

7.9

433

第 25 天

11.2

593

第 26 天

6.7

372

第 27 天

8.9

506

第 28 天

10

530

第 29 天

7.3

411

第 30 天

9.4

493

    1. SPSSAU操作
      1. 数据分布验证

Pearson相关分析是参数统计方法,需要被研究的数据基本符合正态分布,所以先通过SPSSAU—可视化—P-P/Q-Q图功能来检验数据的正态分布性。

图 2 P-P图正态分布验证操作

如果P-P分析结果中散点图近似呈现为一条对角直线,则说明数据呈现出正态分布。反之则说明数据非正态。通过下图可得,两个指标均符合正态分布。

图 3 P-P图分析结果

      1. 皮尔逊相关分析

通过“通用方法”—“相关”模块进行分析,本案例重点关注“每日工作时长”作为自变量和因变量“拣货总量”的影响,所以将前者放入“分析项X”,将后者放入“分析项Y”。操作如图 4 皮尔逊分析操作所示。

4 皮尔逊分析操作

      1. 附注:相关系数矩阵

当想研究多个指标两两之间的相关关系时,即构造相关系数矩阵,可将所有指标放在同一个框中。若多个指标中有区分因变量和自变量时,则对应放入框内。

    1. 结论

拣货总量(件)和每日工作时长(小时)之间的相关系数值为0.967,并且呈现出0.01水平的显著性(P<0.01)。P值的通过说明该结论具有统计学意义,r值趋近于1表明拣货总量(件)和每日工作时长(小时)之间有着显著的正相关关系。

表 5 Pearson相关-标准格式 

拣货总量(件)

每日工作时长(小时)

0.967**

*p<0.05 **p<0.01

    1. 特别说明

从理论上讲,数据分布呈现出不正态时则使用Spearman相关系数,但无论是Pearson或者Spearman相关系数,其实际依旧是研究相关关系,结论上并不会有太大区别;并且数据正态分布通常在理想状态下才会成立。因而现实研究中使用Pearson相关系数的情况占绝大多数。

同样采取上述pearson案例数据。

    1. SPSSAU操作

由于斯皮尔曼等级相关分析关注的是秩次,属于非参数统计方法,所以无需进行标准正态分布检验。直接选择spearman分析法即可,如图 5 斯皮尔曼分析操作所示。

5 斯皮尔曼分析操作

    1. 结论

P值<0.01,具有统计学意义,r值为0.972,趋近于1,表明高度正线性相关。

表 6 Spearman相关-标准格式

拣货总量(件)

每日工作时长(小时)

0.972**

*p<0.05 **p<0.01

某企业人力资源部门想探究员工的“每周加班时长”“团队协作表现”“任务完成效率”与“季度绩效评级”之间的关联。数据如表 7 员工表现数据所示。

7 员工表现数据

员工 ID

加班时长

团队协作

完成效率

绩效评级

1

中等

经常配合

高效

良好

2

较少

极少配合

一般

合格

3

极多

主动主导协作

极高效

优秀

4

极少

从不配合

低效

不合格

5

较多

偶尔配合

高效

良好

6

中等

偶尔配合

一般

中等

7

较少

经常配合

一般

合格

8

极多

经常配合

极高效

优秀

9

极少

极少配合

较低效

合格

10

较多

主动主导协作

极高效

优秀

11

中等

极少配合

一般

中等

12

较少

偶尔配合

较低效

合格

    1. SPSSAU操作
      1. 有序数据数据编码

在使用SPSSAU进行kendall分析前,需要让平台能识别数据的“顺序”,所以需要对原始数据中的有序数据进行“数据编码”的预处理,按照从小到大(从低到高、从弱到强等关系)对原文字内容进行排序。图 6 数据编码操作展示其中一个字段的处理方式,使用的是模块“数据处理”—“数据编码”。

6 数据编码操作

4 个字段的等级定义如下:

字段

编码等级

每周加班时长

按加班时间从少到多分为 5 级 —— 极少(<5 小时)、较少(5-10 小时)、中等(11-15 小时)、较多(16-20 小时)、极多(>20 小时)

团队协作表现

按协作积极性从低到高分为 5 级 —— 从不配合、极少配合、偶尔配合、经常配合、主动主导协作

任务完成效率

按效率从低到高分为 5 级 —— 低效(常拖延)、较低效(偶尔拖延)、一般(按时完成)、高效(提前完成)、极高效(超额提前完成)

季度绩效评级

按绩效从低到高分为 5 级 —— 不合格、合格、中等、良好、优秀

按照上述分类对所有字段进行编码后,会默认出现以“New”开头的新字段,那些字段就是在不覆盖原始数据情况下,经过数据编码后对应的数据。

图 7 数据编码处理结果

      1. Kendall-tau b分析

SPSSAU相关分析时,下拉参数中Kendall相关具体为Kendall tub_b。由于我们因素较多,我们可以研究两两之间的相关系数矩阵,将所有字段放在同一个框中,如图 8 Kendall相关系数矩阵的操作所示。

8 Kendall相关系数矩阵的操作

或将绩效评级作为更为关注的结果变量(因变量Y),而其他字段作为自变量X,如图 9 Kendall考虑因变量的分析操作所示。

9 Kendall考虑因变量的分析操作

    1. 结论
      1. 两两相关分析方式

当全部字段都放在一个框时,会生成相关系数矩阵,即反映字段两两之间的相关关系。

表 8 相关系数矩阵:Kendalls相关-详细格式

New_绩效评级

New_完成效率

New_团队协作

New_加班时长

New_绩效评级

相关系数

1

p值

-

样本量

-

New_完成效率

相关系数

0.927**

1

p值

0.000

-

样本量

12

-

New_团队协作

相关系数

0.703*

0.739**

1

p值

0.011

0.006

-

样本量

12

12

-

New_加班时长

相关系数

0.911**

0.875**

0.619*

1

p值

0.000

0.000

0.032

-

样本量

12

12

12

-

*p<0.05 **p<0.01

      1. X与Y单独分析方式

当以“绩效评级”作为Y变量来分析时,结果如表 9 X与Y单独分析:Kendalls相关-详细格式所示,可见在P<0.05的条件下,全部相关系数都具有统计学意义,且皆大于0.7(如完成效率与绩效评级的相关系数为0.927、团队协作与绩效评级的相关系数为0.703、加班时长与绩效评级的相关系数为0.911),代表它们都与Y变量(绩效评级)高度相关。

9 X与Y单独分析:Kendalls相关-详细格式

New_绩效评级

New_完成效率

相关系数

0.927**

p值

0.000

样本量

12

New_团队协作

相关系数

0.703*

p值

0.011

样本量

12

New_加班时长

相关系数

0.911**

p值

0.000

样本量

12

*p<0.05 **p<0.01

相关分析开始前先观察原始数据的类型,决定采用的分析方法。一般说来,定量数据与定量数据的分析常考虑的是Pearson相关分析;定量数据与定类数据可考虑Spearman等级相关分析;而定类数据与定类数据常用Kendall相关分析。

  1. “生成完全正相关、完全负相关、正相关、负相关、不相关、非线性相关的六个图”提示词,豆包,生成于2025-10-21.
  2. 相关分析,SPSS在线网,https://spssau.com/helps/universalmethod/correlation.html.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值