斯皮尔 皮尔森 肯德尔_Pearson, Kendall, Spearman三种相关性的差异

本文介绍了皮尔森、肯德尔和斯皮尔曼三种相关性分析方法,包括它们的计算公式、适用条件和解释。皮尔森相关适用于连续数据且要求数据正态分布,肯德尔秩相关是非参数检验,适用于顺序数据,斯皮尔曼等级相关同样适合顺序数据,但对分布不做假设。相关系数的强度分为极强、强、中等、弱和极弱相关。

2ff34e647e2e3cdfd8dca593e17d9b0a.png

相关性(Pearson,Kendall,Spearman)

最近在学习R语言时,需要对两个连续变量进行相关性分析,通过查看帮助文档,发现cor.test()常用的相关性方法有三种,其中出现最为频繁的就是皮尔逊相关系数了,这里收集整理一下这三种方法的区别。1

2

3

4cor.test(x, y,

alternative = c("two.sided", "less", "greater"),

method = c("pearson", "kendall", "spearman"),

exact = NULL, conf.level = 0.95, continuity = FALSE, ...)

相关性是一种双变量分析,它衡量两个变量之间关联的强度和关系的方向。关于关系的强度,相关系数的值在+1和-1之间变化。当相关系数的值在±1左右时,这被认为是两个变量之间的完美关联度。由于相关系数值为0,两个变量之间的关系将较弱。关系的方向只是+(表示变量之间的正相关)或 - (表示变量之间的负相关)相关性的符号。通常在统计学中,我们使用三种类型的相关性:Pearson相关性,Kendall秩相关性,Spearman相关.

Pearson r correlation 皮尔逊相关

Pearson r相关性是用于测量线性相关变量之间关系程度的最广泛使用的相关统计量。例如,在股票市场,如果我们想衡量两个股票之间的相互关系,则用Pearson r相关度来衡量两者之间的关系。Point-biserial相关性是用Pearson相关公式进行的,除了其中一个变量是二分的。以下公式用于计算Pearson r相关:

7db590b60f7025b967beced6579cfcce.png

r = Pearson r相关系数

N =每个数据集中的值数

Σxy=成对分数的

乘积之和Σx= x分数

之和Σy= y分数

Σx2=平方x分数的和

Σy2=平方y得分的和

Pearson相关性可以检查的研究问题的类型:

年龄之间有统计学意义上的关系,以年数衡量,高度以英寸衡量?

温度,度数华氏度和冰淇淋销售之间是否有收入关系?

工作满意度之间是否存在关系,由JSS衡量,收入以美元衡量?

假设

对于Pearson r相关性,两个变量都应该是正态分布的(正态分布变量具有钟形曲线)。其他假设包括线性和同态性。线性度假设分析中每个变量之间存在直线关系,同质性假定数据在回归线上正态分布。

行为和解释皮尔逊相关

关键术语效应大小: Cohen的标准将用于评估相关系数,以确定关系的强度或效应大小,其中.10和.29之间的相关系数表示小关联.30和.49之间的系数表示介质关联,以及.50以上的系数表示大的关联或关系。

连续数据: 间隔或比率级别的数据。这种类型的数据具有相邻单元之间的幅度和相等间隔的属性。相邻单元之间的相等间隔意味着在刻度尺上的相邻单元之间有相等量的被测量的变量。一个例子就是年龄。年龄从21岁增加到22岁将与60岁至61岁的年龄相同。

Kendall rank correlation 肯德尔等级相关

肯德尔等级相关是一个非参数检验,用于衡量两个变量之间依赖的强度。如果我们考虑两个样本a和b,其中每个样本大小为 n,我们知道与ab的配对总数为 n( n -1)/ 2。 以下公式用于计算肯德尔秩相关值:

2.jpg Nc =一致

Nd的数量=不一致的数量

行为和解释肯德尔相关

关键术语一致: 以相同的方式订购。

不一致: 有所不同。

Spearman rank correlation 斯皮尔曼等级相关

斯派曼秩相关是一个非参数测试,用于测量两个变量之间的关联程度。它是由斯皮尔曼开发的,因此称之为斯皮尔曼等级相关。斯皮尔曼等级相关性测试对于数据分布不承担任何假设,而是在以至少为次序的尺度上测量变量时进行适当的相关分析。

以下公式用于计算Spearman秩相关:

2.jpg P = Spearman秩相关

di =相应值Xi和Yi的行之间的差

n n =每个数据集中的值的数量

Spearman相关答案

参与者对两个Likert量表问题的回答之间是否存在统计学上的显着关系?

马匹在种族和马的年龄之间的排名有统计学意义上的关系吗?

假设

Spearman等级相关性测试对于分布没有做任何假设。Spearman rho相关的假设是数据必须至少是序数,一个变量上的分数必须与其他变量单调相关。

行为和解释Spearman相关

关键术语效应大小: Cohen的标准将用于评估相关系数,以确定关系的强度或效应大小,其中系数在.10和.29之间表示小关联; 系数介于30.30和.49之间。并且.50及以上的系数表示大的关联或关系。

有序数据: 有序量表对待测量的项目进行排序,以指示它们是否具有更多,更少或相同量的被测量变量。序数量表使我们能够确定X> Y,Y> X,或者如果X = Y。一个例子是排序舞蹈比赛的参与者。排名第一的舞者是比排名第二的舞者更好的舞者。排名第二的舞者是比排名第三的舞者更好的舞者,等等。虽然这个规模使我们能够确定大于,小于或等于,但它仍然没有定义单位之间关系的大小。

相关系数强度

相关系数

0.8-1.0 极强相关

0.6-0.8 强相关

0.4-0.6 中等程度相关

0.2-0.4 弱相关

0.0-0.2 极弱相关或无相关

### R语言中实现斯皮尔相关性分析的代码示例 在R语言中,可以使用 `cor()` 函数结合参数 `method = "spearman"` 来计算斯皮尔相关系数。此外,`cor.test()` 函数可以同时计算相关系数和显著性检验的p值[^1]。 以下是完整的代码示例: ```r # 示例数据 x <- c(1, 2, 3, 4, 5) y <- c(5, 6, 7, 8, 7) # 计算斯皮尔相关系数 spearman_coef <- cor(x, y, method = "spearman") # 输出相关系数 print(paste("Spearman correlation coefficient:", spearman_coef)) # 进行斯皮尔相关性检验 spearman_test <- cor.test(x, y, method = "spearman") # 输出检验结果 print(paste("Spearman test p-value:", spearman_test$p.value)) ``` 上述代码中,`cor()` 函数用于计算斯皮尔相关系数,而 `cor.test()` 函数不仅返回相关系数,还返回了假设检验的p值,用于判断两组变量之间的相关性是否显著[^1]。 ### 斯皮尔相关性分析的解释 斯皮尔相关系数衡量的是两个变量之间的单调关系,其取值范围为[-1, 1]。当系数接近1时,表示两个变量之间存在强烈的正向单调关系;当系数接近-1时,表示存在强烈的负向单调关系;当系数接近0时,表示两者之间几乎没有单调关系[^2]。 ### 数据要求与适用场景 斯皮尔相关性分析适用于以下情况: - 数据不满足正态分布。 - 存在异常值或极端值。 - 关系是非线性的但可能是单调的[^3]。 ```r # 示例:生成非线性但单调递增的数据 set.seed(123) x <- 1:100 y <- log(x) + rnorm(length(x), sd = 0.1) # 计算斯皮尔相关系数 spearman_coef <- cor(x, y, method = "spearman") print(paste("Spearman correlation coefficient for non-linear data:", spearman_coef)) # 检验显著性 spearman_test <- cor.test(x, y, method = "spearman") print(paste("Spearman test p-value for non-linear data:", spearman_test$p.value)) ``` 上述代码展示了如何对非线性但单调递增的数据进行斯皮尔相关性分析[^3]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值