title: 【概率论】4-6:协方差和相关性(Covariance and Correlation)
categories:
- Mathematic
- Probability
keywords:
- Covariance
- Correlation
- Properties of Covariance and Correlation
toc: true
date: 2018-03-26 10:44:07
Abstract: 本文介绍协方差和相关性的基础知识,以及部分性质
Keywords: Covariance,Correlation,Properties of Covariance and Correlation
开篇废话
概率论基础知识,基础工具已经进入到后半部分了,接下来后面就是对特定分布的研究和分析了,使用的工具就是我们已经介绍过的这些知识,融汇贯通是所有知识学习的唯一考量,掌握的知识点如果不能融入体系,一个月后就相当于没学过,但是成体系的知识不同,只要有一个根节点,就能联系到整个一颗知识树。
一杯敬朝阳,一杯敬月光
我们前面几个重要的数字特征针对的基本都是单一随机变量,我们很清楚,我们在实际操作中面对的基本都是多随机变量的联合分布,那么我们接下来就想研究下,两个或者多个随机变量之间是怎么互相影响的。
协方差(Covariance),相关性(Correlation)是度量随机变量间独立性的一种数字特征,但是必须注意,这两个数字特征度量的是随机变量之间的 线性相关程度 ,这里要好好注意一下!线性相关程度。
注意,协方差和相关性,只刻画线性相关程度!
Covariance
当我们将随机变量从一个扩展到多个,前面提到的期望,方差,中值等这些针对单个随机变量的数字特征就只能刻画联合分布的某一边缘分布的性质了。所以我们提出了新的数字特征,这个数字特征能描述两个随机变量之间有没有变化上的关系,比如他们经常同时变大或者变小,或者总是一个变大另一个变小,这种关联的关系。
通过这种数字特征,我们能够在求出若干个这种变量的方差,以及通过已经得到的几个随机变量的结果来预测其他几个。如果确定了这几个随机变量之间的关联,这些似乎都是可行的。
Definition Covariance. Let XXX and YYY be random variables having finite means.Let E(X)=μXE(X)=\mu_XE(X)=μX and E(Y)=μYE(Y)=\mu_YE(Y)=μY The covariance of X and Y,which is denoted by Cov(X,Y)Cov(X,Y)Cov(X,Y) ,is defined as
Cov(X,Y)=E[(X−μX)(Y−μY)] Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)] Cov(X,Y)=E[(X−μX)(Y−μY)]
if the expectation exists.
没错我们本章就是在研究期望,所以,本章所有的数字特征都来自期望,期望的存在性也左右了这些数字特征的存在性。
如果 X 和Y的都有有限的方差,那么期望存在,并且 Cov(X,Y)Cov(X,Y)Cov(X,Y) 存在且有限,但是正负不受限制,可以是正数,负数,0
举个? :
已知随机变量 XXX 和 YYY 有联合p.d.f.
f(x,y)={2xy+0.5 for 0≤x≤1 and 0≤y≤10otherwise f(x,y)= \begin{cases} 2xy+0.5&\text{ for } 0\leq x\leq 1 \text{ and } 0\leq y\leq 1\\ 0&\text{otherwise} \end{cases} f(x,y)={2xy+0.50 for 0≤x≤1 and 0≤y≤1otherwise
我们来计算 XXX 和 YYY 的协方差。
首先我们要做的是计算均值,求 μX,μY\mu_X,\mu_YμX,μY
μX=∫01∫01[2x2y+0.5x]dydx=∫01[x2+0.5x]dx=712 \begin{aligned} \mu_X&=\int^{1}_{0}\int^{1}_{0}[2x^2y+0.5x]dydx\\ &=\int^{1}_{0}[x^2+0.5x]dx\\ &=\frac{7}{12} \end{aligned} μX=∫01∫01[2x2y+0.5x]dydx=∫01[x2+0.5x]dx=127
同理可以求出 μY=712\mu_Y=\frac{7}{12}μY=127
接下来就是求协方差了:
∫01∫01(x−712)(y−712)(2xy+0.5)dydx \int^{1}_{0}\int^{1}_{0}(x-\frac{7}{12})(y-\frac{7}{12})(2xy+0.5)dydx ∫01∫01(x−127)(y−127)(2xy+0.5)dydx
求积分就不写了,很简单,结果是 Cov(X,Y)=1144Cov(X,Y)=\frac{1}{144}Cov(X,Y)=1441
按照定义算肯定不是最优的,有一个公理好像是说你永远不能一下就找到最优方法。计算协方差也是一样的。
Theorem For all random variables X and Y such that σX2<∞\sigma^2_{X}<\inftyσX2<∞ and σY2<∞\sigma^2_{Y}<\inftyσY2<∞ ,
Cov(X,Y)=E(XY)−E(X)E(Y) Cov(X,Y)=E(XY)-E(X)E(Y) Cov(X,Y)=E(XY)−E(X)E(Y)
这个定理是说当两个随机变量都有方差的时候,他们的联合分布的协方差可以用他们的期望来求得,这是个定理,定理都是可以被证明(定义不行)
证明:
Cov(X,Y)=E(XY−μXY−μYX+μXμY)=E(XY)−μXE(Y)−μyE(X)+μXμY) \begin{aligned} Cov(X,Y)&=E(XY-\mu_X Y-\mu_Y X + \mu_X\mu_Y)\\ &=E(XY)-\mu_X E(Y)-\mu_y E(X) + \mu_X\mu_Y)\\ \end{aligned} Cov(X,Y)=E(XY−μXY−μYX+μXμY)=E(XY)−μXE(Y)−μyE(X)+μXμY)
就得到了上面定理的结论,证明过程非常简单。
协方差的的主要用途就是来刻画两个或者多个变量的相关程度,比如两个随机变量同时都变大或者同时都变小,或者一个变大一个变小。
观察定义我们可以注意到,当协方差大于0的时候,一般情况下如果出现了 $ X > \mu_X$ 就基本上会出现 Y>μYY > \mu_YY>μY 。是否一定会出现 Y>μYY > \mu_YY>μY ?这个是不确定的,但是发生概率极大。
同样的情况适合于协方差是负数,或者$ X < \mu_X$ 的情况
当协方差是0,那么 XXX 与 YYY 对应于其均值的大小变换比较随意,没有太大的一致性.
上面介绍的就是协方差的一些情况,接下来就是相关性的引入。
以上为节选,完整原文地址:https://www.face2ai.com/Math-Probability-4-6-Covariance-and-Correlation转载请标明出处