一、协方差
协方差的定义如下:
数值E[X−E(x)][Y−E(Y)]E{[X-E(x)][Y-E(Y)]}E[X−E(x)][Y−E(Y)]为随机变量X与Y的协方差,记为Cov(X,Y),即
Cov(X,Y)=E[X−E(x)][Y−E(Y)]Cov(X,Y)=E{[X-E(x)][Y-E(Y)]}Cov(X,Y)=E[X−E(x)][Y−E(Y)].
对于D(X+Y),我们有
D(X+Y)=E(((X+Y)−E(X+Y))2)=E(((X−E(X)+(Y−E(Y))2)=E((X−E(X))2+(Y−E(Y))2+2∗(X−E(X)(Y−E(Y))))=D(X)+D(Y)+2E((X−E(X))(Y−E(Y)))=D(X)+D(Y)+2Cov(X,Y)D(X+Y)=E(((X+Y)-E(X+Y))^2) \\
=E(((X-E(X)+(Y-E(Y))^2) \\ =E((X-E(X))^2+(Y-E(Y))^2 \\ +2*(X-E(X)(Y-E(Y)))) \\=D(X)+D(Y)+2E((X-E(X))(Y-E(Y))) \\ =D(X)+D(Y)+2Cov(X,Y)D(X+Y)=E(((X+Y)−E(X+Y))2)=E(((X−E(X)+(Y−E(Y))2)=E((X−E(X))2+(Y−E(Y))2+2∗(X−E(X)(Y−E(Y))))=D(X)+D(Y)+2E((X−E(X))(Y−E(Y)))=D(X)+D(Y)+2Cov(X,Y)
当X,Y独立时,D(X+Y)=D(X)+D(Y)D(X+Y)=D(X)+D(Y)D(X+Y)=D(X)+D(Y)
协方差反映了随机变量X与Y的线性相关性。
- Cov(X,Y)>0,X与Y正相关Cov(X,Y)>0,X与Y正相关Cov(X,Y)>0,X与Y正相关
- Cov(X,Y)=0,X与Y不相关Cov(X,Y)=0,X与Y不相关Cov(X,Y)=0,X与Y不相关
- Cov(X,Y)<0,X与Y负相关Cov(X,Y)<0,X与Y负相关Cov(X,Y)<0,X与Y负相关
独立一定不相关,不相关不一定独立
相关性指的是线性相关性,随机变量之间可能存在非线性关系,比如X=Y2X=Y^2X=Y2。
协方差是有量纲的数字特征,为了消除其量纲的影响,引入一个新概念:
定义:数值ρxy=Cov(X,Y)D(X)D(Y)\rho_{xy}=\frac{Cov(X,Y)}{\sqrt{D(X)D(Y)}}ρxy=D(X)D(Y)Cov(X,Y)
称为随机变量X与Y的相关系数,是没有量纲的。
性质: - ∣ρxy∣≤1|\rho_{xy}|\leq1∣ρxy∣≤1
- ∣ρ=1∣↔|\rho=1|\leftrightarrow∣ρ=1∣↔存在常数a,b,使得P(Y=a+bX)=1P(Y=a+bX)=1P(Y=a+bX)=1
- 当∣ρ∣|\rho|∣ρ∣较大时,表明X与Y的线性相关程度较好;当∣ρ∣=1|\rho|=1∣ρ∣=1,表明X与Y以概率1存在线性关系。
二、协方差矩阵
定义:设X=(X1,X2,...,XM)TX=(X_1,X2,...,X_M)^TX=(X1,X2,...,XM)T为m维随机变量,称矩阵
[c11c12...c1mc21c22...c2m.........cm1cm2...cmm]
\left[
\begin{matrix}
c_{11} & c_{12} & ...& c_{1m}\\
c_{21}& c_{22} & ... & c_{2m}\\
. & . & & . & \\
. & . & & . & \\
. & . & & . & \\
c_{m1} & c_{m2} & ... & c_{mm}
\end{matrix}
\right]
⎣⎢⎢⎢⎢⎢⎢⎡c11c21...cm1c12c22...cm2.........c1mc2m...cmm⎦⎥⎥⎥⎥⎥⎥⎤
为m维随机变量的协方差矩阵,记为D(X),其中,cij=Cov(Xi,Xj),i,j=1,2,...,mc_{ij}=Cov(X_i,X_j),i,j=1,2,...,mcij=Cov(Xi,Xj),i,j=1,2,...,m
为X的分量XiX_iXi和XjX_jXj的协方差。
假设有n个样本数据,每个样本数据有m个分量(或者说是m个特征),将其表示为矩阵即是S∈Rn∗mS\in R^{n*m}S∈Rn∗m, 假设β\betaβ为其行向量,则S=[β1,β2,...,βn]TS=[\beta_1,\beta_2,...,\beta_n]^TS=[β1,β2,...,βn]T,
样本协方差矩阵可用矩阵运算表示,
D(X)=1n−1∑i=1n(βi−βˉ)T(βi−βˉ)D(X)=\frac{1}{n-1}\sum_{i=1}^{n}(\beta_i-\bar{\beta})^T(\beta_i-\bar{\beta})D(X)=n−11i=1∑n(βi−βˉ)T(βi−βˉ)
βˉ\bar{\beta}βˉ为β\betaβ的均值,也是一个行向量。
记忆公式的时候根据协方差矩阵的维度来记,前面的系数为n-1,n为样本数量,这是因为样本的均值并不是实际变量的均值,所以要进行修正,这和样本方差的计算是一致的。由于每个样本数据有m个维度(或者说特征),所以最后的矩阵维度一定是m*m。