协方差
协方差(Covariance)是在概率论和统计学中用来衡量两个随机变量或数据集之间线性关系的一个统计量。它描述的是两个变量在一组观测值中的变动是否一致。具体来说,协方差可以告诉两个变量是否倾向于在同一方向上变化(正协方差)或者是在相反的方向上变化(负协方差)。
对于两个随机变量XXX和YYY,它们的协方差可以通过以下公式计算得出:
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]Cov(X,Y)=E[(X−E[X])(Y−E[Y])]
这里的E[X]E[X]E[X]和E[Y]E[Y]E[Y]分别代表随机变量XXX和YYY的期望值(均值)。
在样本数据的情况下,协方差的计算可以简化为:
Cov(X,Y)=1n−1∑i=1n(Xi−Xˉ)(Yi−Yˉ)\text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})Cov(X,Y)=n−11i=1∑n(Xi−Xˉ)(Yi−Yˉ)
式中:
-XiX_iXi和YiY_iYi是两个变量XXX和YYY的第iii个观测值。
-nnn是观测值的数量。
-Xˉ\bar{X}Xˉ和Yˉ\bar{Y}Yˉ分别是XXX和YYY的样本均值。
协方差的符号(正或负)可以告诉两个变量之间的关系类型:
- 当Cov(X,Y)>0\text{Cov}(X, Y) > 0Cov(X,Y)>0时,表明XXX和YYY倾向于同方向变化,即正相关。
- 当Cov(X,Y)<0\text{Cov}(X, Y) < 0Cov(X,Y)<0时,表明XXX和YYY倾向于反方向变化,即负相关。
- 当Cov(X,Y)=0\text{Cov}(X, Y) = 0Cov(X,Y)=0时,XXX和YYY没有线性相关性。
需要注意的是,协方差的大小受变量量纲和尺度的影响,所以当需要比较不同变量之间的关系强度时,通常会使用标准化后的度量——相关系数。
相关系数
相关系数用于衡量两个变量之间的线性关系强度和方向。
总体
相关系数是标准化的协方差。给定两个随机变量 XXX 和 YYY,它们的相关系数 rXYr_{XY}rXY 可以通过它们的协方差和各自的方差来计算。数学表达式如下:
rXY=Cov(X,Y)σXσY r_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y} rXY=σXσYCov(X,Y)
其中:
- Cov(X,Y)\text{Cov}(X, Y)Cov(X,Y) 表示 XXX 和 YYY 的协方差,
- σX\sigma_XσX 和 σY\sigma_YσY 分别表示 XXX 和 YYY 的标准差。
协方差 Cov(X,Y)\text{Cov}(X, Y)Cov(X,Y) 的定义为:
Cov(X,Y)=E[(X−μX)(Y−μY)] \text{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] Cov(X,Y)=E[(X−μX)(Y−μY)]
其中 μX\mu_XμX 和 μY\mu_YμY 分别是 XXX 和 YYY 的期望值(均值),E[⋅]E[\cdot]E[⋅] 表示期望运算。
标准差 σX\sigma_XσX 和 σY\sigma_YσY 可以分别表示为:
σX=Var(X)=E[(X−μX)2] \sigma_X = \sqrt{\text{Var}(X)} = \sqrt{E[(X - \mu_X)^2]} σX=Var(X)=E[(X−μX)2]
σY=Var(Y)=E[(Y−μY)2] \sigma_Y = \sqrt{\text{Var}(Y)} = \sqrt{E[(Y - \mu_Y)^2]} σY=Var(Y)=E[(Y−μY)2]
因此,相关系数 rXYr_{XY}rXY 的完整表达式为:
rXY=E[(X−μX)(Y−μY)]E[(X−μX)2]E[(Y−μY)2] r_{XY} = \frac{E[(X - \mu_X)(Y - \mu_Y)]}{\sqrt{E[(X - \mu_X)^2]} \sqrt{E[(Y - \mu_Y)^2]}} rXY=E[(X−μX)2]E[(Y−μY)2]E[(X−μX)(Y−μY)]
样本
对于两个变量 XXX 和 YYY,它们的相关系数 rrr 可以通过以下公式计算得出(通常称为皮尔逊相关系数):
rXY=∑i=1n(Xi−X‾)(Yi−Y‾)∑i=1n(Xi−X‾)2∑i=1n(Yi−Y‾)2 r_{XY} = \frac{\sum_{i=1}^{n}(X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \overline{X})^2}\sqrt{\sum_{i=1}^{n}(Y_i - \overline{Y})^2}} rXY=∑i=1n(Xi−X)2∑i=1n(Yi−Y)2∑i=1n(Xi−X)(Yi−Y)
其中:
- XiX_iXi 和 YiY_iYi 分别表示变量 XXX 和 YYY 在第 iii 个观测值上的值;
- X‾\overline{X}X 和 Y‾\overline{Y}Y 分别表示变量 XXX 和 YYY 的样本均值;
- nnn 表示观测值的数量。
这个公式可以被简化为:
rXY=∑i=1n(Xi−X‾)(Yi−Y‾)(n−1)sXsY
r_{XY} = \frac{\sum_{i=1}^{n}(X_i - \overline{X})(Y_i - \overline{Y})}{(n-1) s_X s_Y}
rXY=(n−1)sXsY∑i=1n(Xi−X)(Yi−Y)
其中 sXs_XsX 和 sYs_YsY 分别是 XXX 和 YYY 的样本标准差。
相关系数的值域是从 -1 到 1,即 [−1,1][-1, 1][−1,1]。当 rrr 接近于111时,表示两个变量之间存在强正相关;当 rrr 接近于−1-1−1时,表示两个变量之间存在强负相关;而当 rrr 接近于 0 时,则表示两个变量之间几乎不存在线性关系。
- 完全正相关:当相关系数为 1 时,表示两个变量之间存在完全正相关关系。这意味着一个变量的增加总是伴随着另一个变量的增加,且变化的比例相同。
- 完全负相关:当相关系数为 -1 时,表示两个变量之间存在完全负相关关系。这意味着一个变量的增加总是伴随着另一个变量的减少,且变化的比例相同。
- 无相关性:当相关系数为 0 时,表示两个变量之间没有线性关系。