相关性分析:从基础到应用
在数据分析领域,我们常常会遇到需要研究变量之间关系的情况。之前我们主要关注单变量数据的研究,比如研究一组学生的平均智商、一群人的平均身高或者不同性别的平均BMI等。但如果我们想要同时研究两个变量之间的关系呢?这就涉及到双变量数据的分析,也就是我们所说的相关性分析。
1. 什么是相关性
在严格的英语术语中,“correlation”意味着一种联系或某种关系。在统计学领域,相关性被定义为衡量两个变量之间关联(强度)的双变量指标。需要注意的是,相关性并不等同于因果关系,它只是对两个变量之间关联可能性的一种近似描述。
要确定两个变量之间的关系,通常需要遵循以下步骤:
- 第一步:构建散点图
散点图是研究两个变量关系的起点,它能直观地展示变量之间的相关性。在散点图中,我们需要关注以下几个特性:
- 关系强度 :在散点图上,数据点越靠近最佳拟合线,两个变量之间的线性关系就越强。
- 图形方向 :
- 正相关 :当散点图上的数据点呈现从左下角到右上角的模式时,即两个变量朝相同方向变化,我们称这两个变量之间存在正相关关系。这意味着一个变量的增加会导致另一个变量的增加,反之亦然。
- 负相关 :当数据点呈现从左上角到右下角的模式时,即两个变量朝相反方向变化,我们称这两个变量之间存在负相关关系。这意味着一个变量的增加会导致另一个变量的减少,反之亦然。
- 关系形式 :
-
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



