1、联合分布
均值和方差是我们再熟悉不过的两个概念,但它们都是基于单一随机变量,如果考虑多个随机变量呢?例如,在体检中身高和体重;这就属于联合分布的范畴了。
定义:关于随机向量(多个随机变量)的分布称为联合分布。联合分布函数作为描述随机向量的概率分布而存在。
举例说明:假设身高为随机变量 x1x_1x1,体重为随机变量 x2x_2x2,随机向量 X=(x1,x2)X=(x_1,x_2)X=(x1,x2)。随机抽取100个人发现:身高分布为 {160cm,170cm,180cm}\{160cm,170cm,180cm\}{160cm,170cm,180cm},体重分布为 {60kg,70kg,80kg}\{60kg,70kg,80kg\}{60kg,70kg,80kg},具体如下表所示:
160cm | 170cm | 180cm | |
---|---|---|---|
60kg | 20人 | 5人 | 5人 |
70kg | 5人 | 30人 | 5人 |
80kg | 5人 | 5人 | 20人 |
根据上表可以计算得到联合分布函数 F(X)=F(x1,x2)F(X)=F(x_1,x_2)F(X)=F(x1,x2):
160cm | 170cm | 180cm | |
---|---|---|---|
60kg | 0.2 | 0.05 | 0.05 |
70kg | 0.05 | 0.3 | 0.05 |
80kg | 0.05 | 0.05 | 0.2 |
可以看到,这里的两个随机变量之间还是有一定关系的:身高越高,体重越大,反之亦然。这就是联合分布的意义,它可以反映多个变量之间关系。
2、协方差
上面谈到联合分布可以反映两个变量之间的相互关系,而协方差就是用来具体描述这个关系的。可以看到“大身高大体重”、“小身高小体重”出现的概率相对更大,这种“大配大、小配小”的关系我们称之为正相关,反之称为负相关;如果两者之间大小关系不明显,则称为不相关。所以,这里随机变量 x1、x2x_1、x_2x1、x2 是正相关的。
对于多个(≥2\ge2≥2)随机变量的联合分布,任意两个随机变量之间都存在相关关系,任意两个随机变量之间都能计算协方差。
定义:如果 x1、x2x_1、x_2x1、x2 是联合分布 FFF 中的随机变量,且它们的期望值分别为 x1‾、x2‾\overline{x_1}、\overline{x_2}x1、x2,那么 x1、x2x_1、x_2x1、x2 的协方差为Cov(x1,x2)=E[(x1−x1‾)(x2−x2‾)]Cov(x_1,x_2)=E[(x_1-\overline{x_1})(x_2-\overline{x_2})]Cov(x1,x2)=E[(x1−x1)(x2−x2)]
上述所要加权平均的目标是 (x1−x1‾)(x2−x2‾)(x_1-\overline{x_1})(x_2-\overline{x_2})(x1−x1)(x2−x2) ,如果 x1=x2x_1=x_2x1=x2,那么协方差就变成了方差。随机变量和期望的差,代表了随机变量的取值和中心值的偏离程度,也就是我们上面所谓的“偏大”或者“偏小”的情况:正值的偏离表示“偏大”,负值的偏离表示“偏小”。如果是正相关,即“大身高大体重”、“小身高小体重”的情况,那么乘积为正、取均值亦为正;反之为负。所以,协方差 Cov(x1,x2)Cov(x_1,x_2)Cov(x1,x2) 表达了 x1x_1x1 和 x2x_2x2 的相关性。
现在来算一下 Cov(x1,x2)Cov(x_1,x_2)Cov(x1,x2)。x1‾=170\overline{x_1}=170x1=170,x1‾=70\overline{x_1}=70x1=70,所以有:
(x1−x1‾)(x2−x2‾)(x_1-\overline{x_1})(x_2-\overline{x_2})(x1−x1)(x2−x2) | 160cm | 170cm | 180cm |
---|---|---|---|
60kg | 100 | 0 | -100 |
70kg | 0 | 0 | 0 |
80kg | -100 | 0 | 100 |
将上述两个表对应位置元素相乘再求和,就是求均值
Cov(x1,x2)=0.2∗100+0.05∗(−100)+0.05∗(−100)+0.2∗100=3\begin{aligned}
Cov(x_1,x_2)&=0.2*100+0.05*(-100)+0.05*(-100)+0.2*100\\
&=3
\end{aligned}Cov(x1,x2)=0.2∗100+0.05∗(−100)+0.05∗(−100)+0.2∗100=3结果为正值,表示正相关,跟推论一致。根据期望的性质,我们可以改写协方差的计算公式:
Cov(x1,x2)=E[(x1−x1‾)(x2−x2‾)]=E[x1x2−x1‾x2−x1x2‾+x1‾ x2‾]=E(x1x2)−x1‾E(x2)−x2‾E(x1)+x1‾ x2‾=E(x1x2)−E(x1)E(x2)\begin{aligned}
Cov(x_1,x_2)&=E[(x_1-\overline{x_1})(x_2-\overline{x_2})]\\
&=E[x_1x_2-\overline{x_1}x_2-x_1\overline{x_2}+\overline{x_1}\ \overline{x_2}]\\
&=E(x_1x_2)-\overline{x_1}E(x_2)-\overline{x_2}E(x_1)+\overline{x_1}\ \overline{x_2}\\
&=E(x_1x_2)-E(x_1)E(x_2)
\end{aligned}Cov(x1,x2)=E[(x1−x1)(x2−x2)]=E[x1x2−x1x2−x1x2+x1 x2]=E(x1x2)−x1E(x2)−x2E(x1)+x1 x2=E(x1x2)−E(x1)E(x2)当 x1、x2x_1、x_2x1、x2 相互独立时,E(x1x2)=E(x1)E(x2)E(x_1x_2)=E(x_1)E(x_2)E(x1x2)=E(x1)E(x2),则有 Coc(x1,x2)=0Coc(x_1,x_2)=0Coc(x1,x2)=0,表示二者不相关。(要注意的是,Cov(x1,x2)=0Cov(x_1,x_2)=0Cov(x1,x2)=0 并不意味着二者一定相互独立!)
3、相关系数
协方差可以很好的衡量两个变量之间的相关性,两个随机变量之间的协方差越大说明它们的相关性越强;但是如何判断这个相关性到底是多大呢?身高与体重的协方差为30,如果身高与鞋码的协方差为5,那就一定说明身高与体重的相关性更大吗?其实不一定。协方差在某种意义上受到单位的影响,也就是说:如果我们把体重单位改成 ggg 而不是 kgkgkg,这时协方差就会增加1000倍;其次,体重的浮动较大,鞋码浮动较小,同样是5的差距,作用在体重上可能变化不大,但是作用在鞋码上就很明显,这是由于计算时变量没有统一标准。
所以,要进行横向对比,需要对协方差进行归一化,统一标准,这就是相关系数的来源,相关系数可以看做是“归一化的协方差”。ρ(x1,x2)=Cov(x1,x2)D(x1)D(x2)=Cov(x1,x2)σ(x1)σ(x2)\rho(x_1,x_2)=\frac{Cov(x_1,x_2)}{\sqrt[]{D(x_1)D(x_2)}}=\frac{Cov(x_1,x_2)}{\sigma(x_1)\sigma(x_2)}ρ(x1,x2)=D(x1)D(x2)Cov(x1,x2)=σ(x1)σ(x2)Cov(x1,x2)D(x1)、D(x2)D(x_1)、D(x_2)D(x1)、D(x2)表示方差,σ(x1)、σ(x2)\sigma(x_1)、\sigma(x_2)σ(x1)、σ(x2)表示标准差,相关系数等于协方差除以两个随机变量的标准差。
相关系数的性质:
(1)∣ρ(x1,x2)∣≤1;|\rho(x_1,x_2)|\le1;∣ρ(x1,x2)∣≤1;
(2)∣ρ(x1,x2)∣=1  ⟺  ∃a,b∈R,st:x1=a+b∗x2|\rho(x_1,x_2)|=1\iff\exists{a,b}\isin{R},st:x_1=a+b*x_2∣ρ(x1,x2)∣=1⟺∃a,b∈R,st:x1=a+b∗x2(存在线性关系)
相关系数刻画了两个随机变量之间线性关系的紧密程度:∣ρ∣|\rho|∣ρ∣ 越接近1,表示二者之间线性关系越密切,相关程度越好。如果 ∣ρ∣=0|\rho|=0∣ρ∣=0,说明二者之间相关性很差、不存在线性关系,但并不表示不存在其它非线性关系。所以,两个随机变量如果独立,那么它们之间不存在任何关系,相关系数必定为0,也就不相关;反之如果相关系数为0,虽然不存在线性关系,也不能说明就一定独立。
独立和不相关:独立必定不相关,不相关不一定独立!