相关性与P值

本文详细解释了相关性、P值和显著性的概念,强调了P值在统计学上的重要性,并介绍了如何使用Medcalc进行相关性分析,包括不同相关系数的解读和因果关系的区分。实例展示了P<0.0001的结果,显示ASPECT评分存在强相关性。

0 FQA:

主要描述相关性和p值分别代表什么意义?
以及如何使用medcalc计算相关性和p值。

Q1:p值代表什么意义?
A1:统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为有统计学差异, P<0.01 为有显著统计学差异,P<0.001为有极其显著的统计学差异。

1 相关性与显著性的关系

P值:也就是Sig值或显著性值。如果P值小于0.01即说明某件事情的发生至少有99%的把握,如果P值小于0.05(并且大于0.01)则说明某件事情的发生至少有95%的把握。当P<0.01或P<0.05,则为说明水平显著。
**相关系数:**是研究变量之间线性相关程度的量,用于说明两个变量之间是否存在相关关系,以及相关关系的紧密程度。分为pearson相关系数、Spearman相关系数。一般相关系数在0.7以上说明关系非常紧密;0.40.7之间说明关系紧密;0.20.4说明关系一般。

显著性回答的问题是他们之间是否有关系,说明得到的结果是不是偶然因素导致的(具有统计学意义);相关系数回答的问题是相关程度强弱。
假如说我得到”P<0.05,相关系数 R=0.279”,意味着二者之间确实(P<0.05)存在相关关系,而相关性为0.279。
而如果“P>0.05 相关系数R=0.799”,则意味着二者之间相关性很强(R=0.799),而这个高相关的结果可能是偶然因素导致的,即不具有统计学意义。

所以一般要求的前提条件就是: P<0.01,首先要说明具有统计学意义。然后再说相关性如何。

2 相关性分析

相关性系数是介于[-1,+1]之间的实数。当相关性系数介于-10之间时,表明变量之间存在负相关关系;当相关性系数介于01之间时,表明变量之间存在正相关关系;当相关性系数为0时,二者之间不存在相关性。

相关性系数越接近1,表明变量之间的相关性越强,当相关系数越接近0,表明变量之间的相关性越弱。
当相关性系数的绝对值介于0.10.3之间时,一般认为变量间存在弱相关;当相关系数的绝对值介于0.30.5之间时,一般认为变量间存在中度相关;当相关性系数的绝对值大于0.5时,一般认为变量间存在强相关。

需要注意的是,因子之间的Pearson相关性仅能代表因子之间数据的关联程度,不能直接进行因果判定。因果判定需要根据试验的具体情况,因子的相关逻辑来完成,更多的时候还需要借助其他分析方法来综合判断。
(注:相关并不一定因果)

3 使用medcalc进行相关性分析:

如下图所示,为我们创建的一个ASPECT评分的表格。
image.png

然后点击 statistics —correlation —correlation coefficient

image.png

选择x轴和y轴:

image.png

得到结果:
r =0.5214, p<0.0001.说明具有统计显著性,相关性为0.5214,具有较强的相关性。

image.png

参考文章:

相关性和显著性校验 - 风的样子的文章 - 知乎
https://zhuanlan.zhihu.com/p/419535435

虽然给定引用中未直接提及因子分析旋转后相关性分析不显著的解决办法,但可结合因子分析的整体知识进行推测。 ### 重新审视因子提取方法 因子分析有多种提取方法,如主成分分析法(PCA)、主轴因子法、最大似然法、最小二乘法等。若当前使用的提取方法不合适,可能导致旋转后相关性分析不显著。可以尝试更换因子提取方法,例如从主成分分析法换成主轴因子法。主轴因子法通过迭代估计因子载荷,可能会得到不同的因子结构,从而改善相关性分析结果[^1]。 ### 调整因子旋转方法 因子旋转方法分为正交旋转(如Varimax)和斜交旋转(如Oblimin)。正交旋转假设因子间独立,而斜交旋转允许因子相关,更贴近现实情况。若使用的是正交旋转,结果相关性不显著,可尝试斜交旋转,如Oblimin旋转,使因子之间存在一定相关性,也许能提高相关性分析的显著性[^1]。 ### 检查数据质量 数据中可能存在异常、缺失等问题,影响因子分析结果。对数据进行清洗,处理缺失,可以采用均填充、多重插补等方法;识别并处理异常,如通过Z分数法、箱线图法等确定异常并进行修正或删除。确保数据质量良好,才能得到更可靠的因子分析结果。 ### 增加样本量 样本量过小可能导致统计检验的效力不足,使得相关性分析不显著。如果条件允许,增加样本量可以提高统计检验的准确性和可靠性,使因子之间的相关性更有可能被检测出来。 ### 重新选择变量 若选择的变量不合适,可能无法有效反映潜在因子,导致相关性不显著。重新审视原始变量,根据研究目的和理论基础,筛选出更具代表性、研究问题更相关的变量进行因子分析。 ```python # 以下是一个简单的Python示例,使用factor_analyzer库进行因子分析,可根据上述思路调整参数 from factor_analyzer import FactorAnalyzer import pandas as pd # 假设data是包含原始变量的数据框 data = pd.read_csv('your_data.csv') # 创建因子分析对象,可调整提取方法和旋转方法 fa = FactorAnalyzer(n_factors=3, method='principal', rotation='varimax') fa.fit(data) # 查看因子载荷等结果 loadings = fa.loadings_ print(loadings) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值