协方差
二维随机变量(X,Y)(X,Y)(X,Y), XXX 与 YYY 之间的协方差定义为:
Cov(X,Y)=E[X−E(X)][Y−E(Y)]Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}Cov(X,Y)=E[X−E(X)][Y−E(Y)]
其中,E(X)E(X)E(X)为分量XXX的期望,E(Y)E(Y)E(Y)为分量YYY的期望
协方差 Cov(X,Y)Cov(X,Y)Cov(X,Y) 是描述随机变量是否相互关联的一个特征数。从协方差的定义可以看出,它是X的偏差 [X−E(X)][X-E(X)][X−E(X)] 与Y的偏差 [Y−E(Y)][Y-E(Y)][Y−E(Y)] 的乘积的数学期望。由于偏差可正可负,因此协方差也可正可负。
-
当协方差 Cov(X,Y)>0Cov(X,Y)>0Cov(X,Y)>0 时,称X与Y正相关
-
当协方差 Cov(X,Y)<0Cov(X,Y)<0Cov(X,Y)<0 时,称X与Y负相关
-
当协方差 Cov(X,Y)=0Cov(X,Y)=0Cov(X,Y)=0 时,称X与Y不相关
但是,协方差仅能进行定性的分析,并不能进行定量的分析,比如身高体重之间的协方差为209.1,它们之间的相关性具体有多大呢,协方差并没有给出定量的判断标准。因此我们引出相关系数的概念。
相关系数
二维随机变量(X,Y)(X,Y)(X,Y), XXX 与 YYY 之间的相关系数定义为:
其中,$ Var(X) $为 $ X $ 的方差, $Var(Y) $ 为 YYY 的方差。
相关系数 Corr(X,Y)Corr(X,Y)Corr(X,Y) 是描述随机变量相互关联程度的一个特征数。
-
Corr(X,Y)=−1Corr(X,Y)=-1Corr(X,Y)=−1的时候,说明两个随机变量完全负相关,即满足 Y=−aX+b,a>0Y=-aX+b,a>0Y=−aX+b,a>0
-
0<∣Corr(X,Y)∣<10<| Corr(X,Y)|<10<∣Corr(X,Y)∣<1 的时候,说明两个随机变量具有一定程度的线性关系。
-
Corr(X,Y)=0Corr(X,Y)=0Corr(X,Y)=0,表示X与Y没有线性关系
-
Corr(X,Y)=1Corr(X,Y)=1Corr(X,Y)=1的时候,说明两个随机变量完全正相关,即满足 Y=aX+b,a>0Y=aX+b,a>0Y=aX+b,a>0(当两个随机变量相同,即Corr(X,XCorr(X,XCorr(X,X) ,肯定满足线性关系,此时,Cov(X,X)=Var(X)Cov(X,X)=Var(X)Cov(X,X)=Var(X),容易得到 Corr(X,Y)=1Corr(X,Y)=1Corr(X,Y)=1)
##举例##
二维随机变量(身高X,体重Y)
由此我们可以看到,身高和体重呈正相关。
此时,Corr(X,Y)=209.4/(10.2∗24.4)=0.84Corr(X,Y)= 209.4/(10.2*24.4)=0.84Corr(X,Y)=209.4/(10.2∗24.4)=0.84,故身高和体重的相关性为 0.840.840.84