[闲聊统计]之相关性分析是什么？

最新推荐文章于 2024-11-07 02:49:52 发布

原创最新推荐文章于 2024-11-07 02:49:52 发布 · 960 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #算法 #机器学习

闲聊统计专栏收录该内容

6 篇文章

订阅专栏

本文介绍了相关性在数据分析中的重要性，特别是针对数值-数值（如正态分布和非正态分布）、分类-分类和分类-数值变量的几种常见分析方法，如皮尔逊相关系数、斯皮尔曼和肯德尔相关系数，以及卡方检验在不同情况下的使用。

相关性是一个重要的概念，用来描述两个或多个事物之间的关联程度。在许多领域，相关性被用来帮助人们理解数据之间的关系，以便做出更好的决策。相关性不仅可以帮助我们发现事物之间的联系，还可以帮助我们预测未来的趋势和结果。因此，了解和分析相关性是非常重要的。通过深入研究相关性，我们可以更好地理解世界，做出更明智的选择。

小编在这里只讨论两个变量之间的相关性。我们在课本里面讲过的相关性分析就是一个皮尔逊相关系数，当然这是计算两个数值变量之间的相关性分析。而对于两个分类变量、一个分类和一个数值变量应该怎样进行相关性分析呢？非正态分布下又如何进行相关性分析呢？

其实，差异比较(假设检验)也就是相关性分析。例如不同年龄段的人在消费水平上有差异，也就是说，年龄和消费水平有相关性。

1.数值——数值(有序分类——有序分类)

1.1 服从正态分布(参数检验)

皮尔逊相关系数（Pearson Correlation Coefficient）：皮尔逊相关系数是一种用于衡量两个连续变量之间线性关系的方法。它的取值范围在-1到1之间，其中1表示完全正相关，-1表示完全负相关，0表示无相关性。皮尔逊相关系数基于协方差和标准差计算，适用于连续型数据且假定数据呈正态分布。

1.2 不服从正态分布(非参数检验)

斯皮尔曼相关系数（Spearman Rank Correlation Coefficient）：斯皮尔曼相关系数是一种非参数的相关性分析方法，它基于变量的等级顺序而不是原始数值。这使得它更适用于有序数据、序数数据或偏态数据。斯皮尔曼相关系数可以用于测量变量之间的单调关系，不要求数据满足正态分布假设。
肯德尔相关系数（Kendall’s Tau Correlation Coefficient）：肯德尔相关系数也是一种非参数的相关性分析方法，用于测量两个变量之间的排序关系。它基于排列对的数量，可以度量变量的等级之间的一致性程度。肯德尔相关系数对于小样本数据和存在重复值的情况更稳健。

2.分类——分类

卡方检验(独立性检验)
。是用途非常广的一种假设检验方法，它在分类资料统计推断中的应用，包括两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。是一种非参数检验方法

3.数值——分类

分类变量	参数检验	非参数检验
二分类变量	配对样本T检验	Wilcoxon符号秩检验
二分类变量	独立样本T检验	Mann-Whitney 检验
多分类变量	单因素方差分析分析	Kruskal-Wallis,Mood’s中值检验
多分类变量	重复测量的单因素方差分析	Friedman 检验