对于一个随机变量的分布特征,可以由均值、方差、标准差等进行描述。而对于两个随机变量的情况,有协方差和相关系数来描述两个随机变量的相互关系。
本文主要参考概率论与数理统计的教科书,整理了协方差、样本协方差、协方差矩阵、相关系数的概念解释和代码。
协方差(covariance)
协方差的概念来自概率论,实际应用中的样本协方差则与统计学概念有关。
协方差反应了随机变量 X 、 Y X、Y X、Y之间“协同”变化的关系。也可以说,协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度。
当 Y Y Y就是 X X X时, c o v ( X , Y ) = c o v ( X ) = v a r ( X ) cov(X,Y)=cov(X)=var(X) cov(X,Y)=cov(X)=var(X)协方差即为方差,这就是我们称其为协方差的原因。1
协方差定义:
c o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } = E ( X Y ) − E ( X ) E ( Y ) cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\} =E(XY)-E(X)E(Y) cov(X,Y)=E{
[X−E(X)][Y−E(Y)]}=E(XY)−E(X)E(Y)
直观解释
若 c o v ( X , Y ) > 0 cov(X,Y)>0 cov(X,Y)>0,即事件 { X > E ( X ) } ∩ { Y > E ( Y ) } \{X>E(X)\}\cap\{Y>E(Y)\} { X>E(X)}∩{ Y>E(Y)}或 { X < E ( X ) } ∩ { Y < E ( Y ) } \{X<E(X)\}\cap\{Y<E(Y)\} { X<E(X)}∩{ Y<E(Y)}发生的可能性更大,说明 X X X和 Y Y Y均有同时大于或同时小于各自平均值的趋势。
协方差的绝对值如果很大,则意味着变量值变化很大,并且它们同时距离各自的均值很远。
如果协方差是正的,那么两个变量都倾向于同时取得相对较大的值。如果协方差是负的,那么其中一个变量倾向于取得相对较大的值的同时,另一个变量倾向于取得相对较小的值,反之亦然。
样本协方差(sample covariance)
实际应用中,总体 X X X的均值
统计学中的协方差与相关系数

本文详细介绍了协方差与相关系数的概念及其在统计学中的应用,包括协方差、样本协方差、协方差矩阵的定义与计算方法,并通过实例展示了如何使用Python中的Numpy和Pandas库进行相关计算。
最低0.47元/天 解锁文章
3047





