均值、方差、协方差、协方差矩阵

本文详细介绍了统计学中的几个关键概念:均值、方差、协方差及其矩阵。均值是数据集的平均值,方差衡量数据离散程度,协方差表示两个变量的共同变化趋势。当协方差为0时,表示两个变量独立。相关系数是协方差与两个变量方差的商,用于衡量相关性强度。

1、均值E(X)
(1)E(X)=ΣX/n
(2)E(X±a)=E(X)±a
(3)E(aX)=aE(X)
(4)E(X±Y)=E(X)±E(Y)
(5)E(XY)=E(X)E(Y)

2、方差D(X)
(1)D(X)=E{(X-E(X))^2}
=E(X^2-2XE(X)+E(X)^2)
=E(X^2)-E(2XE(X))+E[E(X)^2)]
=E(X^2)-2E(X)^2+E(X)^2
=E(X^2)-E(X)^2
(2)D(X±a)=D(X)
(3)D(aX)=a^2D(X)
(4)D(X±Y)=D(X)+D(Y)±2E{[X-E(X)][Y-E(Y)]}=D(X)+D(Y)±2COV(X,Y)
当X、Y是两个相互独立的随机变量,则协方差为0,有D(X±Y)=D(X)+D(Y)。

3、协方差COV(X,Y)
(1)COV(X,Y)=E{[X-E(X)][Y-E(Y)]}
=E(XY)-E(X)E(Y)
(2)COV(X,Y)=COV(Y,X)
(3)COV(aX,bY)=abCOV(X,Y)
(4)COV(X1+X2,Y)=COV(X1,Y)+COV(X2,Y)

4、相关系数ρ(X,Y)
(1)ρ(X,Y)=COV(X,Y)/[D(X)D(Y)]^1/2
|ρ|<0.1时不相关,0.1≤|ρ|<0.3时为弱相关,0.3≤|ρ|<0.5时中度相关,0.5≤|ρ|<0.8时较强相关,|ρ|≥0.8时高度相关。
(2)若Y=a+bX,令E(X)=μ,D(X)=σ^2
则E(Y)=a+bμ,D(Y)=b^2*σ^2,E(XY)=E(aX+bX^2)=aμ+b(σ^2+μ^2),
Cov(X,Y)=E(XY)-E(X)E(Y)=aμ+b(σ^2+μ^2)-μ(a+bμ)=bσ^2
ρ(X,Y)=COV(X,Y)/[D(X)D(Y)]^1/2=bσ^2/[σ^2*b^2*σ^2]^1/2=±1
可知相关系数与起点和数量级无关。

5、协方差矩阵
在统计学与概率论中,协方差矩阵的每个元素是各个向量元素之间的协方差。是从标量随机变量到高维度随机向量的自然推广。
假设 X 是以 n 个标量随机变量组成的列向量,协方差矩阵被定义为:
这里写图片描述

### 多维数据中的方差协方差矩阵 #### 定义与概念 对于一个多维的数据集,每一个维度可以视为一个随机变量。当处理 n 维数据时,为了描述各维度之间的线性关系强度,通常会构建一个 \(n \times n\) 的协方差矩阵。该矩阵内的第 i 行第 j 列元素表示的是第 i 个变量和第 j 个变量间的协方差[^1]。 如果假设各个维度间相互独立,则除了对角线上的位置外其他地方都应该是零;而对角线上的数值则对应着各自变量自身的方差大小[^2]。 #### 计算方法 给定一组样本点组成的矩阵 X (m×n),其中 m 是样本数量, n 是特征数(即维度), 那么可以通过下面的方式计算得到协方差矩阵 C: \[C=\frac{1}{m-1}X^{T}X\] 这里需要注意的是,在实际操作过程中往往会对原始数据先进行中心化处理(即将每列减去其均值),然后再按照上述公式求解[^3]。 ```python import numpy as np def compute_covariance_matrix(data): centered_data = data - np.mean(data, axis=0) covariance_matrix = np.dot(centered_data.T, centered_data)/(data.shape[0]-1) return covariance_matrix # Example usage with a random dataset of shape (samples, features) np.random.seed(42) # For reproducibility example_dataset = np.random.rand(5, 3) cov_matrix = compute_covariance_matrix(example_dataset) print(cov_matrix) ``` #### 应用场景 协方差矩阵广泛应用于统计学、机器学习等领域: - **主成分分析**:通过寻找最大化的方向来降低数据维度的同时保留尽可能多的信息量。 - **多元正态分布建模**:用于刻画多个连续型随机变量联合概率密度函数的关键参数之一。 - **马氏距离度量**:衡量两个样本点之间差异程度的一种方式,考虑到了不同属性的重要性权重问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值