1. 相关性度量
为了定量的描述线性相关性,统计学奠基人K. Pearson提出了Pearson相关系数、心理学家CE. Spearman提出了Spearman等级相关系数、统计学家M. Kendall提出了Kendall秩相关系数。这三种相关系数最具有代表性、应用也最广泛,它们既有联系又有不同,分别有不同的适用场景。
Pearson相关系数
Pearson相关系数 (Pearson correlation coefficient)用于度量两个变量X、Y的相关性(线性相关),定义如下:
\[r = \frac{\sum_{i=1}^n (X_i - \overline{X}) (Y_i - \overline{Y})}{\sqrt{\sum_{i}(X_i - \overline{X})^2} \sqrt{\sum_{i}(Y_i - \overline{Y})^2}} \]
容易证明Pearson相关系数的取值范围为[-1, 1]。
- 若为1意味着X和Y的数据点基本落在一条直线上,且Y随X的增加而增加,换言之X和Y可以由直线方程来描述(线性正相关);
- 若为-1则表示X和Y线性负相关,Y随X的增加而减少;
- 若为0,则说明二者没有线性关系。
下图给出了当Pearson相关系数为不同值时X和Y的散点图(以下三张图片均来自于Wikipedia):
博客探讨了三种常见的线性相关性度量方法:Pearson相关系数、Spearman等级相关系数和Kendall秩相关系数。Pearson系数衡量线性相关性,不受位置和尺度变化影响;Spearman系数更适用于单调性相关,抗离群点影响;Kendall系数基于序对一致性判断相关性。三种度量在不同情境下各有优势。
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



