期望、方差、协方差及相关系数的基本运算

本文介绍了概率统计中的核心概念:期望、方差、协方差及相关系数的定义与性质,并提供了这些概念的基本运算规则。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这篇文章总结了概率统计中期望、方差、协方差和相关系数的定义、性质和基本运算规则。

期望

定义

P(x)P(x)是一个离散概率分布函数,自变量的取值范围为{x1,x2,,xn}{x1,x2,⋯,xn}。其期望被定义为:

E(x)=k=1nxkP(xk)E(x)=∑k=1nxkP(xk)

p(x)p(x)是一个连续概率密度函数。其期望为:

E(x)=+xp(x)dxE(x)=∫−∞+∞xp(x)dx

性质

1、线性运算规则

期望服从线性性质(可以很容易从期望的定义公式中导出)。因此线性运算的期望等于期望的线性运算:

E(ax+by+c)=aE(x)+bE(y)+cE(ax+by+c)=aE(x)+bE(y)+c

这个性质可以推广到任意一般情况:

E(k=1naixi+c)=k=1naiE(xi)+cE(∑k=1naixi+c)=∑k=1naiE(xi)+c

2、函数的期望

f(x)f(x)为x的函数,则f(x)f(x)的期望为:

离散:

E(f(x))=k=1nf(xk)P(xk)E(f(x))=∑k=1nf(xk)P(xk)

连续:

E(f(x))=+f(x)p(x)dxE(f(x))=∫−∞+∞f(x)p(x)dx

一定要注意,函数的期望不等于期望的函数,即E(f(x))f(E(x))E(f(x))≠f(E(x))!。

3、乘积的期望

一般来说,乘积的期望不等于期望的乘积,除非变量相互独立。因此,如果x和y相互独立,则E(xy)=E(x)E(y)E(xy)=E(x)E(y)

期望的运算构成了统计量的运算基础,因为方差、协方差等统计量本质上是一种特殊的期望

方差

定义

方差是一种特殊的期望,被定义为:

Var(x)=E((xE(x))2)Var(x)=E((x−E(x))2)

性质

1、展开表示

反复利用期望的线性性质,可以算出方差的另一种表示形式:

Var(x)=====E((xE(x))2)E(x22xE(x)+(E(x))2)E(x2)2E(x)E(x)+(E(x))2E(x2)2(E(x))2+(E(x))2E(x2)(E(x))2Var(x)=E((x−E(x))2)=E(x2−2xE(x)+(E(x))2)=E(x2)−2E(x)E(x)+(E(x))2=E(x2)−2(E(x))2+(E(x))2=E(x2)−(E(x))2

2、常数的方差

常数的方差为0,由方差的展开表示很容易推得。

3、线性组合的方差

方差不满足线性性质,两个变量的线性组合方差计算方法如下:

Var(ax+by)=a2Var(x)+b2Var(y)+2Cov(x,y)Var(ax+by)=a2Var(x)+b2Var(y)+2Cov(x,y)

其中Cov(x,y)Cov(x,y)为x和y的协方差,下一节讨论。

4、独立变量的方差

如果两个变量相互独立,则:

Var(ax+by)=a2Var(x)+b2Var(y)Var(ax+by)=a2Var(x)+b2Var(y)

作为推论,如果x和y相互独立:Var(x+y)=Var(x)+Var(y)Var(x+y)=Var(x)+Var(y)

协方差

定义

两个随机变量的协方差被定义为:

Cov(x,y)=E((xE(x))(yE(y)))Cov(x,y)=E((x−E(x))(y−E(y)))

因此方差是一种特殊的协方差。当x=y时,Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y)

性质

1、独立变量的协方差

独立变量的协方差为0,可以由协方差公式推导出。

2、线性组合的协方差

协方差最重要的性质如下:

Cov(i=1maixi,j=1nbjyj)=i=1mj=1naibjCov(xi,yj)Cov(∑i=1maixi,∑j=1nbjyj)=∑i=1m∑j=1naibjCov(xi,yj)

很多协方差的计算都是反复利用这个性质,而且可以导出一些列重要结论。

作为一种特殊情况:

Cov(a+bx,c+dy)=bdCov(x,y)Cov(a+bx,c+dy)=bdCov(x,y)

另外当x=y时,可以导出方差的一般线性组合求解公式:

Var(k=1naixi)=i=1nj=1naiajCov(xi,xj)Var(∑k=1naixi)=∑i=1n∑j=1naiajCov(xi,xj)

相关系数

定义

相关系数通过方差和协方差定义。两个随机变量的相关系数被定义为:

Corr(x,y)=Cov(x,y)Var(x)Var(y)Corr(x,y)=Cov(x,y)Var(x)Var(y)

性质

1、有界性

相关系数的取值范围为-1到1,其可以看成是无量纲的协方差。

2、统计意义

值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。


from: http://blog.codinglabs.org/articles/basic-statistics-calculate.html

### 如何使用协方差来计算相关系数 为了理解如何利用协方差来计算相关系数,先要明白两者的定义及其联系。 #### 定义与公式 协方差用于衡量两个随机变量共同变化的趋势。具体而言,对于任意两个随机变量 \( X \) \( Y \),其协方差可以通过下述两种方式之一求得: \[ COV(X, Y)=E[(X-E[X])(Y-E[Y])] \] 或者简化形式为: \[ COV(X, Y)=E[XY]-E[X]E[Y] \][^2] 这里 \( E[\cdot] \) 表示期望运算符;\( E[X], E[Y] \) 分别表示 \( X \), \( Y \) 的平均值或期望值。 另一方面,相关系数则进一步标准化了这一测量尺度,使得不同单位下的数据可以比较。给定一对随机变量 \( (X, Y) \),皮尔逊积矩相关系数 \( r_{xy} \) 被定义如下: \[ r_{xy}= \frac{COV(X,Y)}{\sqrt{Var[X]} \times \sqrt{Var[Y]}}=\frac{COV(X,Y)}{\sigma_X\sigma_Y}\] 其中 \( Var[] \) 是方差操作符,用来描述单一变量自身的波动情况;而 \( \sigma_X,\sigma_Y \) 则分别指代标准偏差——即各自方差平方根的结果。 因此,通过上述公式可以看出,只要已知某对变量的协方差以及各自的方差,就可以很容易地算出这对变量之间的相关系数。 #### Python 示例代码 下面给出一段简单的Python代码片段,展示怎样基于NumPy库实现从原始数据到最终得出相关系数的过程: ```python import numpy as np def calculate_correlation(x_data, y_data): cov_matrix = np.cov(x_data, y_data) # 提取出协方差矩阵中的协方差项cov_xy cov_xy = cov_matrix[0][1] # 计算并返回Pearson相关系数r_xy std_x = np.std(x_data, ddof=1) std_y = np.std(y_data, ddof=1) correlation_coefficient = cov_xy / (std_x * std_y) return correlation_coefficient if __name__ == "__main__": x_values = [1, 2, 3, 4, 5] y_values = [2, 4, 6, 8, 10] result = calculate_correlation(np.array(x_values), np.array(y_values)) print(f"Pearson Correlation Coefficient: {result}") ``` 这段程序首先导入必要的科学计算包`numpy`,接着定义了一个名为 `calculate_correlation()` 函数接收输入的数据序列作为参数,并按照前述理论框架执行相应运算得到输出结果。最后,在主函数部分提供了一组测试用例验证算法的有效性[^5]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值