1. 协方差
之前,我们讲了随机变量的期望和方差,但是这两个都只用于描述单一的变量,也就是一维变量(可以理解为数轴上的数据点)。那么对于多维变量(平面或空间内的数据点),如何描述变量和变量之间的关系呢?比如说,对于每个学生的各科成绩,我们想知道,数学成绩和物理成绩是不是存在联系?体育好的同学是不是英语不好?协方差就是这样一种用来度量两个随机变量关系的统计量。
期望值分别为E(X)和E(Y)的随机变量X和Y的协方差定义为:
注意:上面的协方差定义中,E(X)和E(Y)是数学期望,对于确定的随机变量是个定值。
进一步化简,可得:
很容易看出,两个变量的协方差有以下计算性质:
- Cov(X,Y)=Cov(Y,X)
- Cov(aX,bY)=ab Cov(X,Y),其中a、b均为常数
- Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
那么如何利用协方差判断变量的相关性呢?
- 当 cov(X, Y)>0时,表明 X与Y正相关;
- 当 cov(X, Y)<0时,表明X与Y负相关;
- 当 cov(X, Y)=0时,表明X与Y不相关,也就是X、Y独立。
下面我们通过图像更直观地理解一下上面这段话。
假设我们拿到了一组(X, Y)的样本,如下图1-A所示。{X-E(X)}和{Y-E(Y)}就是令这组样本中的X、Y各自减掉自己的期望值,得到一组新样本。显然这组新样本在保持原有的数据分布的前提下,其均值就变成了(0,0),也就是说,这组新样本的数据点分布在原点周围,如图1-B所示。接下来,我们再把图1-B中的样本数据点中的每一个点的坐标相乘,也就是得到[(X-E(X)][(Y-E(Y)],令平面空间上的二维样本退化为了坐标轴上的一维样本。在这个过程中,一三象限的点会分布到数轴的正半轴,二四象限的点会分布到数轴的负半部分,如下图1-c所示。而根据刚刚的公式,XY的协方差,其实就是图1-C所示的样本的期望值。从直观上看,对于图1-C所示的数据,其均值接近于0,也就是协方差值约为0,因此X和Y是几乎完全不相关,这一点从图1-A的数据点分布上也可以看出来。
下面再看一下X和Y正相关的例子,也就是说,X越大Y也越大, X越