统计学意义(P值)

sig值就是统计意义p值

结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05的p值通常被认为是可接受错误的边界水平。

如何判定结果具有真实的显著性

在最后结论中判断什么样的显著性水平具有统计学意义,不可避免地带有武断性。换句话说,认为结果无效而被拒绝接受的水平的选择具有武断性。实践中,最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两>比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以往该研究领域的惯例。通常,许多的科学领域中产生p值的结果≤0.05被认为是统计学意义的边界线,但是这显著性水平还包含了相当高的犯错可能性。结果0.05≥p>0.01被认为是具有统计学意义,而0.01≥p≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。

### Python 中的相关性分析及其 P 计算 在 Python 中执行相关性分析并获取相应的 P ,主要依赖于 `scipy` 库中的统计函数。对于不同类型的关联度量指标(如 Pearson、Kendall 和 Spearman),存在特定的方法来评估两组数据间的线性和非线性关系强度以及显著性水平。 #### 使用 SciPy 进行皮尔逊相关系数及 P 的计算 为了衡量两个连续型随机变量之间是否存在线性关系,通常会采用皮尔逊积矩相关系数。下面展示了一个简单的例子: ```python import numpy as np from scipy.stats import pearsonr # 创建样本数据集 np.random.seed(0) x = np.random.rand(100) y = 2 * x + np.random.normal(size=100) # 计算皮尔逊相关系数和对应的双侧P corr_coef, p_value = pearsonr(x, y) print(f"Pearson Correlation Coefficient: {corr_coef:.4f}") print(f"Two-tailed p-value: {p_value:.4f}")[^1] ``` 这段代码首先生成了一对具有正向线性趋势的人工数据点 `(x,y)` ,接着调用了 `pearsonr()` 来求解它们之间的皮尔逊相关系数与双边检验下的 P 。 #### 利用 Pandas 数据帧实现多列间成对比较 当处理更复杂的数据结构比如表格形式存储的信息时,则可借助 Pandas 提供的功能来进行批量操作: ```python import pandas as pd data = {'A': [1., 2., 3., 4., 5.], 'B': [2., 3., 4., 5., 6.]} df = pd.DataFrame(data) result = df.corr(method='pearson') print(result) ``` 上述脚本创建了一个包含两列数的小型 DataFrame 对象,并通过设置参数 `method='pearson'` 调用了 `.corr()` 方法得到整个表内各字段相互作用的结果矩阵;然而这仅返回了相关系数本身而未涉及任何关于统计学意义测试的内容——即缺少了至关重要的 P 部分。 因此,在实际应用当中往往还需要额外引入其他工具箱辅助完成全面的任务需求。例如结合 Scipy 的功能补充缺失环节: ```python def calculate_pvalues(df): dfcols = pd.DataFrame(columns=df.columns) pvalues = dfcols.transpose().join(dfcols, how='outer') for r in df.columns: for c in df.columns: if not r==c : _, pval = pearsonr(df[r], df[c]) pvalues.loc[r,c] = round(pval,4) calculate_pvalues(df) ``` 此自定义函数能够遍历给定 DataFrame 内所有的组合配对情况,进而填充形成一张完整的 P 对照表以便后续解读参考。 #### 非线性情况下适用的选择:肯德尔τ等级相关系数 或 斯皮尔曼ρ秩相关系数 考虑到某些场景下可能存在复杂的非线性模式影响着目标属性的变化规律,此时单纯依靠传统的皮尔逊公式可能无法准确捕捉到潜在联系的存在与否。为此推荐尝试另外两种更为稳健的技术手段——分别是基于排序位置而非原始观测得来的斯皮尔曼秩相关法,还有专门针对有序分类资料设计出来的肯德尔和谐系数算法: ```python from scipy.stats import kendalltau, spearmanr # 示例数据准备省略... # 斯皮尔曼秩相关 rho_s, p_val_s = spearmanr(x, y) print(f"Spearman Rank Correlation Coefficient: {rho_s:.4f}, Two-sided p-value={p_val_s}") # 肯德尔 τb 系数 tau_b, p_val_t = kendalltau(x, y) print(f"Kendall's Tau-b Correlation Coefficient: {tau_b:.4f}, Two-sided p-value={p_val_t}")[^2] ``` 这两种方式都能够在一定程度上克服传统方法面对单调但弯曲形态分布所表现出局限性的问题,从而提供更加可靠有效的结论支持。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值