相关性分析是指对两个或多个具备相关性呃变量元素进行分析,从而衡量两个变量因素之间的相关密切程度。
一般常用四种方法:
-
画图判断(散点图向量或散点图矩阵)ax.scatter(data1,data2)
-
pearson(皮尔逊)相关系数
要求样本满足正态分布—两个样本之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商,其值介于-1与1之间。
协方差:sxy=1n−1∑k=1n(xk−x‾)(yk−y‾){s_{xy}} = \frac{1}{ {n - 1}}\sum\nolimits_{k = 1}^n {(x_k - \overline x )} (y_k - \overline y )sxy=n−11∑k=1n(xk−x)(yk−y)标准差:sx=1n−1∑k=1n(xk−x‾)2{s_x } = \sqrt {\frac{1}{ {n - 1}}\sum\nolimits_{k = 1}^n {(x_k - \overline x )^2 } }sx</