程序员的自我修养之数学基础12:协方差、相关系数与协方差矩阵

本文介绍了协方差作为衡量多维变量之间关系的统计量,详细解析了协方差的定义、性质及计算,探讨了协方差与变量相关性的关系。同时,引入相关系数的概念,作为调整协方差后衡量线性相关程度的指标。最后,文章讲解了协方差矩阵在处理高维数据时的应用,阐述了协方差矩阵的对角化和特征值与特征向量的含义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 协方差

之前,我们讲了随机变量的期望和方差,但是这两个都只用于描述单一的变量,也就是一维变量(可以理解为数轴上的数据点)。那么对于多维变量(平面或空间内的数据点),如何描述变量和变量之间的关系呢?比如说,对于每个学生的各科成绩,我们想知道,数学成绩和物理成绩是不是存在联系?体育好的同学是不是英语不好?协方差就是这样一种用来度量两个随机变量关系的统计量。

期望值分别为E(X)和E(Y)的随机变量X和Y的协方差定义为:

Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

注意:上面的协方差定义中,E(X)和E(Y)是数学期望,对于确定的随机变量是个定值。

进一步化简,可得:

很容易看出,两个变量的协方差有以下计算性质:

  • Cov(X,Y)=Cov(Y,X)
  • Cov(aX,bY)=ab Cov(X,Y),其中a、b均为常数
  • Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

那么如何利用协方差判断变量的相关性呢?

  • 当 cov(X, Y)>0时,表明 X与Y正相关;
  • 当 cov(X, Y)<0时,表明X与Y负相关;
  • 当 cov(X, Y)=0时,表明X与Y不相关,也就是X、Y独立。

下面我们通过图像更直观地理解一下上面这段话。

假设我们拿到了一组(X, Y)的样本,如下图1-A所示。{X-E(X)}和{Y-E(Y)}就是令这组样本中的X、Y各自减掉自己的期望值,得到一组新样本。显然这组新样本在保持原有的数据分布的前提下,其均值就变成了(0,0),也就是说,这组新样本的数据点分布在原点周围,如图1-B所示。接下来,我们再把图1-B中的样本数据点中的每一个点的坐标相乘,也就是得到[(X-E(X)][(Y-E(Y)],令平面空间上的二维样本退化为了坐标轴上的一维样本。在这个过程中,一三象限的点会分布到数轴的正半轴,二四象限的点会分布到数轴的负半部分,如下图1-c所示。而根据刚刚的公式,XY的协方差,其实就是图1-C所示的样本的期望值。从直观上看,对于图1-C所示的数据,其均值接近于0,也就是协方差值约为0,因此X和Y是几乎完全不相关,这一点从图1-A的数据点分布上也可以看出来。

下面再看一下X和Y正相关的例子,也就是说,X越大Y也越大, X越

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值