相关系数
用来衡量两个变量之间 的相关性大小。
根据数据满足的不同条件,选择不同的相关系数来计算分析。
总体和样本
总体:考察对象的全部个体
样本:从总体数据中抽取一部分个体
皮尔逊pearson相关系数(线性+近似正态分布)
注意:只是用来衡量两个变量线性相关程度,在说明相关性时,必须绘制散点图,加上该系数的值才能说明相关性的程度,原因如下:
(1)非线性相关也可能导致pearson相关系数很大
(2)离群点对pearson相关系数的影响很大
(3)即便是pearson相关系数为0,只能说不是线性相关,但有可能存在更复杂的相关性
总体Pearson相关系数
若两组数据为X:{X1,X2,X3,…,Xn}和Y:{Y1,Y2,Y3,…,Yn}
总体均值:
E(X)=∑i=1nXin , E(Y)=∑i=1nYin E(X)=\frac{\sum_{i=1}^{n}{X_i}}{n}\ ,\ \ E(Y)=\frac{\sum_{i=1}^{n}{Y_i}}{n} E(X)=n∑i=1nXi , E(Y)=n∑i=1nYi
总体协方差:
Covar(X,Y)=∑i=1n(Xi−E(X))(Yi−E(Y))n Covar(X,Y)=\frac{\sum_{i=1}^{n}{(X_i-E(X))(Y_i-E(Y))}}{n} Covar(X,Y)=n∑i=1n(Xi−E(X))(Yi−E(Y))
协方差:
若X,Y的变化方向相同,则协方差为正,反之则为负
注:协方差的大小与两个变量的量纲密切相关,故其大小不适合作比较。
σ标准差:
σX=∑i=1t(Xi−E(X))2nσY=∑i=1t(Yi−E(Y))2n \sigma_X=\sqrt{\frac{\sum_{i=1}^{t}{(X_i-E(X))^2}}{n}}\\ \sigma_Y=\sqrt{\frac{\sum_{i=1}^{t}{(Y_i-E(Y))^2}}{n}} σX=

本文深入探讨了相关系数的概念,包括皮尔逊和斯皮尔曼相关系数的计算与应用,强调了在不同数据分布下选择合适相关系数的重要性。
最低0.47元/天 解锁文章
3677

被折叠的 条评论
为什么被折叠?



