期望、方差、协方差与相关系数

本文详细介绍了统计学中关键的概念:期望、方差、协方差与相关系数。解释了这些概念的数学定义及其在实际应用中的意义,包括如何计算随机变量的期望值,理解方差对于数据分散程度的度量,以及如何利用协方差和相关系数衡量两个变量间的关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

期望、方差、协方差与相关系数

期望

定义: 设离散型变量 XXX 的分布律为
P{X=xk}=pk,k=1,2,⋯ . P\{ X = {x_k}\} = {p_k},\begin{array}{c} {}&{k = 1,2, \cdots .} \end{array} P{X=xk}=pk,k=1,2,.
随机变量 XXX 的数学期望为
E(X)=∑k=1∞xkpk E(X) = \sum\limits_{k = 1}^\infty {{x_k}{p_k}} E(X)=k=1xkpk
设连续型随机变量 XXX 的概率密度为 f(x)f(x)f(x)XXX 的数学期望为
E(X)=∫−∞∞xf(x)dx E(X) = \int_{ - \infty }^\infty {xf(x)dx} E(X)=xf(x)dx
一般的期望也称均值,但是二者有不同。

期望和均值的不同?

期望 是一个概率论概念,均值是一个统计学概念。

均值是实验后根据实际结果统计得到的样本的平均值,期望是实验前根据概率分布来预测样本的均值。所以可以说期望是均值随样本趋于无穷的极限。

方差

方差用来度量随机变量 XXX 与均值 E(X)E(X)E(X) 的偏离程度。

定义:XXX 是一个随机变量,若 E{[X−E(X)]2}E\{ {[X - E(X)]^2}\}E{[XE(X)]2} 存在, 则称 E{[X−E(X)]2}E\{ {[X - E(X)]^2}\}E{[XE(X)]2}XXX 的方差,记为 D(X)D(X)D(X) 或 Var(X),即
D(X)=Var(X)=E{[X−E(X)]2} {\rm{D(X) = Var(X) = }}E\{ {[X - E(X)]^2}\} D(X)=Var(X)=E{[XE(X)]2}
引入 D(X)\sqrt {{\rm{D(X)}}}D(X) ,记为 σ(X)\sigma (X)σ(X),称为标准差或者均方差。

离散型随机变量:
D(X)=∑k=1∞[x−E(X)]2pk {\rm{D(X) = }}\sum\limits_{k = 1}^\infty {{{[x - E(X)]}^2}{p_k}} D(X)=k=1[xE(X)]2pk
其中 pkp_kpkXXX 的分布律

连续型随机变量:
D(X)=∫−∞∞[x−E(X)]2f(x)dx {\rm{D(X) = }}\int_{ - \infty }^\infty {{{[x - E(X)]}^2}f(x)dx} D(X)=[xE(X)]2f(x)dx
f(x)f(x)f(x)XXX 的概率密度。

随机变量 XXX 的方差可以用下面的公式计算:
D(X)=E(X2)−[E(X)]2 D(X) = E(X^2)-[E(X)]^2 D(X)=E(X2)[E(X)]2

协方差与相关系数

定义: E{[X−E(X)][Y−E(Y)]}E\{ [X - E(X)][Y - E(Y)]\}E{[XE(X)][YE(Y)]} 称为随机变量 XXXYYY 的协方差,记为 Cov(X,Y)Cov(X,Y)Cov(X,Y) 即:
Cov(X,Y)=E{[X−E(X)][Y−E(Y)]} Cov(X,Y) = E\{ [X - E(X)][Y - E(Y)]\} Cov(X,Y)=E{[XE(X)][YE(Y)]}

ρXY=Cov(X,Y)D(X)D(Y) {\rho _{XY}} = \frac{{Cov(X,Y)}}{{\sqrt {{\rm{D(X)}}} \sqrt {{\rm{D(Y)}}} }} ρXY=D(X)D(Y)Cov(X,Y)
称为随机变量 XXXYYY 的相关系数。

协方差可以用于衡量数据直接的相关性,设有数据 XXX 和 数据 YYY, 通过计算二者的协方差可以有下面的三种情况:

  • Cov(X,Y)>0Cov(X,Y) > 0Cov(X,Y)>0 时,XXXYYY 正相关,即两者有同时增加或者减少的倾向
  • Cov(X,Y)<0Cov(X,Y) < 0Cov(X,Y)<0 时,XXXYYY 正相关,即两者有反向增加或者减少的倾向
  • Cov(X,Y)=0Cov(X,Y) = 0Cov(X,Y)=0 时,XXXYYY 不相关

那么相关系数又是干嘛的呢,假如我们有身高、体重、年龄这三组数据,我们想比较一下到底是身高与体重的相关性大,还是年龄与体重的相关性大?那我们计算身高、体重会有一个单位(厘米.公斤)的度量,计算年龄、体重也会有一个单位(岁.公斤)度量,这样的话单位不统一就没有评价的标准。通过计算他们的相关系数,就可把单位消掉,忽略它们各自不同的度量,就可以归一化到 -1 和 1 之间的值进行比较。

欢迎大家关注我的个人公众号,同样的也是和该博客账号一样,专注分享技术问题,我们一起学习进步
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值