程序员的自我修养之数学基础12：协方差、相关系数与协方差矩阵

最新推荐文章于 2025-03-06 15:46:42 发布

M＆Q

最新推荐文章于 2025-03-06 15:46:42 发布

阅读量655

点赞数

分类专栏：数学基础文章标签：协方差矩阵相关系数协方差

本文链接：https://blog.youkuaiyun.com/qq_45427038/article/details/100764545

版权

本文介绍了协方差作为衡量多维变量之间关系的统计量，详细解析了协方差的定义、性质及计算，探讨了协方差与变量相关性的关系。同时，引入相关系数的概念，作为调整协方差后衡量线性相关程度的指标。最后，文章讲解了协方差矩阵在处理高维数据时的应用，阐述了协方差矩阵的对角化和特征值与特征向量的含义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 协方差

之前，我们讲了随机变量的期望和方差，但是这两个都只用于描述单一的变量，也就是一维变量（可以理解为数轴上的数据点）。那么对于多维变量（平面或空间内的数据点），如何描述变量和变量之间的关系呢？比如说，对于每个学生的各科成绩，我们想知道，数学成绩和物理成绩是不是存在联系？体育好的同学是不是英语不好？协方差就是这样一种用来度量两个随机变量关系的统计量。

期望值分别为E(X)和E(Y)的随机变量X和Y的协方差定义为：

$Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}$

注意：上面的协方差定义中，E(X)和E(Y)是数学期望，对于确定的随机变量是个定值。

进一步化简，可得：

很容易看出，两个变量的协方差有以下计算性质：

Cov(X,Y)=Cov(Y,X)
Cov(aX,bY)=ab Cov(X,Y)，其中a、b均为常数
Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

那么如何利用协方差判断变量的相关性呢？

当 cov(X, Y)>0时，表明 X与Y正相关；
当 cov(X, Y)<0时，表明X与Y负相关；
当 cov(X, Y)=0时，表明X与Y不相关，也就是X、Y独立。

下面我们通过图像更直观地理解一下上面这段话。

假设我们拿到了一组（X, Y）的样本，如下图1-A所示。{X-E(X)}和{Y-E(Y)}就是令这组样本中的X、Y各自减掉自己的期望值，得到一组新样本。显然这组新样本在保持原有的数据分布的前提下，其均值就变成了(0,0)，也就是说，这组新样本的数据点分布在原点周围，如图1-B所示。接下来，我们再把图1-B中的样本数据点中的每一个点的坐标相乘，也就是得到[(X-E(X)][(Y-E(Y)]，令平面空间上的二维样本退化为了坐标轴上的一维样本。在这个过程中，一三象限的点会分布到数轴的正半轴，二四象限的点会分布到数轴的负半部分，如下图1-c所示。而根据刚刚的公式，XY的协方差，其实就是图1-C所示的样本的期望值。从直观上看，对于图1-C所示的数据，其均值接近于0，也就是协方差值约为0，因此X和Y是几乎完全不相关，这一点从图1-A的数据点分布上也可以看出来。