【概率论】4-6:协方差和相关性(Covariance and Correlation)

最新推荐文章于 2025-06-22 18:16:22 发布

weixin_30681615

最新推荐文章于 2025-06-22 18:16:22 发布

阅读量761

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/face2ai/p/9756535.html

本文深入探讨了概率论中的协方差和相关性概念，解析了它们如何度量随机变量间的线性相关程度，介绍了计算方法及性质，通过实例展示了协方差的计算过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

title: 【概率论】4-6:协方差和相关性(Covariance and Correlation)
categories:
- Mathematic
- Probability
keywords:
- Covariance
- Correlation
- Properties of Covariance and Correlation
toc: true
date: 2018-03-26 10:44:07

Abstract: 本文介绍协方差和相关性的基础知识，以及部分性质
Keywords: Covariance,Correlation,Properties of Covariance and Correlation

开篇废话

概率论基础知识，基础工具已经进入到后半部分了，接下来后面就是对特定分布的研究和分析了，使用的工具就是我们已经介绍过的这些知识，融汇贯通是所有知识学习的唯一考量，掌握的知识点如果不能融入体系，一个月后就相当于没学过，但是成体系的知识不同，只要有一个根节点，就能联系到整个一颗知识树。

一杯敬朝阳，一杯敬月光

我们前面几个重要的数字特征针对的基本都是单一随机变量，我们很清楚，我们在实际操作中面对的基本都是多随机变量的联合分布，那么我们接下来就想研究下，两个或者多个随机变量之间是怎么互相影响的。
协方差(Covariance)，相关性(Correlation)是度量随机变量间独立性的一种数字特征，但是必须注意，这两个数字特征度量的是随机变量之间的 线性相关程度 ，这里要好好注意一下！线性相关程度。
注意，协方差和相关性，只刻画线性相关程度！

Covariance

当我们将随机变量从一个扩展到多个，前面提到的期望，方差，中值等这些针对单个随机变量的数字特征就只能刻画联合分布的某一边缘分布的性质了。所以我们提出了新的数字特征，这个数字特征能描述两个随机变量之间有没有变化上的关系，比如他们经常同时变大或者变小，或者总是一个变大另一个变小，这种关联的关系。
通过这种数字特征，我们能够在求出若干个这种变量的方差，以及通过已经得到的几个随机变量的结果来预测其他几个。如果确定了这几个随机变量之间的关联，这些似乎都是可行的。

Definition Covariance. Let $X$ and $Y$ be random variables having finite means.Let $E(X)=μXE(X)=\mu_X$ and $E(Y)=μYE(Y)=\mu_Y$ The covariance of X and Y,which is denoted by $C o v (X, Y)$ ,is defined as
$Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]$
if the expectation exists.

没错我们本章就是在研究期望，所以，本章所有的数字特征都来自期望，期望的存在性也左右了这些数字特征的存在性。
如果 X 和Y的都有有限的方差，那么期望存在，并且 $C o v (X, Y)$ 存在且有限，但是正负不受限制，可以是正数，负数，0

举个? ：
已知随机变量 $X$ 和 $Y$ 有联合p.d.f.
$\begin{cases} 2xy+0.5&\text{ for } 0\leq x\leq 1 \text{ and } 0\leq y\leq 1\\ 0&\text{otherwise} \end{cases}$
我们来计算 $X$ 和 $Y$ 的协方差。

首先我们要做的是计算均值，求 $μX,μY\mu_X,\mu_Y$

$\begin{aligned} \mu_X&=\int^{1}_{0}\int^{1}_{0}[2x^2y+0.5x]dydx\\ &=\int^{1}_{0}[x^2+0.5x]dx\\ &=\frac{7}{12} \end{aligned}$

同理可以求出 $μY=712\mu_Y=\frac{7}{12}$
接下来就是求协方差了:
$\int^{1}_{0}\int^{1}_{0}(x-\frac{7}{12})(y-\frac{7}{12})(2xy+0.5)dydx$
求积分就不写了，很简单，结果是 $Cov(X,Y)=1144Cov(X,Y)=\frac{1}{144}$

按照定义算肯定不是最优的，有一个公理好像是说你永远不能一下就找到最优方法。计算协方差也是一样的。

Theorem For all random variables X and Y such that $σX2<∞\sigma^2_{X}<\infty$ and $σY2<∞\sigma^2_{Y}<\infty$ ,
$C o v (X, Y) = E (X Y) - E (X) E (Y)$

这个定理是说当两个随机变量都有方差的时候，他们的联合分布的协方差可以用他们的期望来求得，这是个定理，定理都是可以被证明（定义不行）
证明：
$\begin{aligned} Cov(X,Y)&=E(XY-\mu_X Y-\mu_Y X + \mu_X\mu_Y)\\ &=E(XY)-\mu_X E(Y)-\mu_y E(X) + \mu_X\mu_Y)\\ \end{aligned}$
就得到了上面定理的结论，证明过程非常简单。

协方差的的主要用途就是来刻画两个或者多个变量的相关程度，比如两个随机变量同时都变大或者同时都变小，或者一个变大一个变小。
观察定义我们可以注意到，当协方差大于0的时候，一般情况下如果出现了 $ X > \mu_X$ 就基本上会出现 $\mu_Y$ 。是否一定会出现 $\mu_Y$ ？这个是不确定的，但是发生概率极大。
同样的情况适合于协方差是负数，或者$ X < \mu_X$ 的情况
当协方差是0，那么 $X$ 与 $Y$ 对应于其均值的大小变换比较随意，没有太大的一致性.