【回归分析】1. 随机向量(1)
2.1 均值向量与协方差阵
当用矩阵形式来表示一个线性模型时,观测向量和误差向量都是随机向量。
-
均值向量:设 X = ( X 1 , X 2 , ⋯ , X n ) ′ X=(X_1,X_2,\cdots,X_n)' X=(X1,X2,⋯,Xn)′ 为 n n n 维随机向量,定义 X X X 的均值向量为
E ( X ) = ( E ( X 1 ) , E ( X 2 ) , ⋯ , E ( X n ) ) ′ . {\rm E}(X)=\left({\rm E}(X_1),{\rm E}(X_2),\cdots,{\rm E}(X_n)\right)' \ . E(X)=(E(X1),E(X2),⋯,E(Xn))′ . -
协方差阵:定义 n n n 维随机向量 X X X 的协方差阵为
C o v ( X ) = E [ ( X − E ( X ) ) ( X − E ( X ) ) ′ ] . {\rm Cov}\left(X\right)={\rm E}\left[(X-{\rm E}(X))(X-{\rm E}(X))'\right] \ . Cov(X)=E[(X−E(X))(X−E(X))′] .
这是一个 n × n n\times n n×n 的对称矩阵。C o v ( X ) {\rm Cov}(X) Cov(X) 的 ( i , j ) (i,j) (i,j) 元为 X i X_i Xi 和 X j X_j Xj 的协方差 C o v ( X i , X j ) {\rm Cov}(X_i,X_j) Cov(Xi,Xj) 。
C o v ( X ) {\rm Cov}(X) Cov(X) 的 ( i , i ) (i,i) (i,i) 元为 X i X_i Xi 的方差 V a r ( X i ) {\rm Var}(X_i) Var(Xi) 。
定理 2.1.1:设 A A A 为 m × n m\times n m×n 非随机矩阵, X X X 和 b b b 分别为 n × 1 n\times1 n×1 和 m × 1 m\times1 m×1 随机向量,记 Y = A X + b Y=AX+b Y=AX+b ,则
E ( Y ) = A E ( X ) + b . {\rm E}(Y)=A{\rm E}(X)+b \ . E(Y)=AE(X)+b .
设 A = ( a i j ) , b = ( b 1 , b 2 , ⋯ , b m ) ′ , Y = ( Y 1 , Y 2 , ⋯ , Y m ) ′ A=(a_{ij}),\,b=(b_1,b_2,\cdots,b_m)',\,Y=(Y_1,Y_2,\cdots,Y_m)' A=(aij),b=(b1,b2,⋯,bm)′,Y=(Y1,Y2,⋯,Ym)′ ,于是
Y i = ∑ j = 1 n a i j X j + b i , i = 1 , 2 , ⋯ , m . Y_i=\sum_{j=1}^na_{ij}X_j+b_i \ , \quad i=1,2,\cdots,m \ . Yi=j=1∑naijXj+bi ,i=1,2,⋯,m .
求均值得
E ( Y i ) = ∑ j = 1 n a i j E ( X j ) + E ( b i ) , i = 1 , 2 , ⋯ , m . {\rm E}(Y_i)=\sum_{j=1}^na_{ij}{\rm E}(X_j)+{\rm E}(b_i) \ , \quad i=1,2,\cdots,m \ . E(Yi)=j=1∑naijE(Xj)+E(bi) ,i=1,2,⋯,m .
改写为矩阵形式得证。
推论 2.1.1:用 t r ( ⋅ ) {\rm tr}(\cdot) tr(⋅) 表示矩阵的迹,即对角线元素之和,则有
t r [ C o v ( X ) ] = ∑ i = 1 n V a r ( X i ) . {\rm tr}[{\rm Cov}(X)]=\displaystyle\sum_{i=1}^n{\rm Var}(X_i) \ . tr[Cov(X)]=i=1∑nVar(Xi) .
定理 2.1.2:设 X X X 为任意的 n n n 维随机向量,则 X X X 的协方差矩阵是非负定对称矩阵。
对称性是显然的。对任意的 n × 1 n\times1 n×1 非随机向量 c c c ,注意到 Y = c ′ X Y=c'X Y=c′X 是一个随机变量,考虑其方差
C o v ( Y ) = C o v ( c ′ X ) = E [ ( c ′ X − E ( c ′ X ) ) ( c ′ X − E ( c ′ X ) ) ′ ] = c ′ E [ ( X − E ( X ) ) ( X − E ( X ) ) ′ ] c = c ′ C o v ( X ) c . \begin{aligned} {\rm Cov}(Y)&={\rm Cov}(c'X) \\ \\ &={\rm E}\left[\left(c'X-{\rm E}\left(c'X\right)\right)\left(c'X-{\rm E}\left(c'X\right)\right)'\right] \\ \\ &=c'{\rm E}\left[\left(X-{\rm E}(X)\right)\left(X-{\rm E}(X)\right)'\right]c \\ \\ &=c'{\rm Cov}(X)c \ . \end{aligned} Cov(Y)=Cov(c′X)=E[(c′X−E(c′X))(c′X−E(c′X))′]=c′E[(X−E(X))(X−E(X))′]c=c′Cov(X)c .
因为 C o v ( Y ) {\rm Cov}(Y) Cov(Y) 是总是非负的,所以对任意的 c c c 都有 c ′ C o v ( X ) c c'{\rm Cov}(X)c c′Cov(X)c 是非负的,故非负定性得证。
定理 2.1.3:设 A A A 为 m × n m\times n m×n 非随机矩阵, X X X 为 n n n 维随机向量, Y = A X Y=AX Y=AX ,则
C o v ( Y ) = A C o v ( X ) A ′ . {\rm Cov}(Y)=A{\rm Cov}(X)A' \ . Cov(Y)=ACov(X)A′ .
根据定义可得,
C o v ( Y ) = E [ ( Y − E ( Y ) ) ( Y − E ( Y ) ) ′ ] = E [ ( A X − E ( A X ) ) ( A X − E ( A X ) ) ′ ] = A E [ ( X − E ( X ) ) ( X − E ( X ) ) ′ ] A ′ = A C o v ( X ) A ′ . \begin{aligned} {\rm Cov}(Y)&={\rm E}\left[(Y-{\rm E}(Y))(Y-{\rm E}(Y))'\right] \\ \\ &={\rm E}\left[(AX-{\rm E}(AX))(AX-{\rm E}(AX))'\right] \\ \\ &=A{\rm E}\left[(X-{\rm E}(X))(X-{\rm E}(X))'\right]A' \\ \\ &=A{\rm Cov}(X)A' \ . \end{aligned} Cov(Y)=E[(Y−E(Y))(Y−E(Y))′]=E[(AX−E(AX))(AX−E(AX))′]=AE[(X−E(X))(X−E(X))′]A′=ACov(X)A′ .
对于两个不同维度的随机向量 X X X 和 Y Y Y ,我们也可以定义协方差阵,但这里的协方差阵不再是方阵。
- 设 X X X 和 Y Y Y 分别为 n n n 维和 m m m 维随机向量,定义 X X X 和 Y Y Y 的协方差阵为
C o v ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ′ ] . {\rm Cov}(X,Y)={\rm E}\left[(X-{\rm E}(X))(Y-{\rm E}(Y))'\right] \ . Cov(X,Y)=E[(X−E(X))(Y−E(Y))′] .
这是一个 n × m n\times m n×m 的矩阵。 C o v ( X , Y ) {\rm Cov}(X,Y) Cov(X,Y) 的 ( i , j ) (i,j) (i,j) 元为 X i X_i Xi 和 Y j Y_j Yj 的协方差 C o v ( X i , Y j ) {\rm Cov}(X_i,Y_j) Cov(Xi,Yj) 。
定理 2.1.4:设 X X X 和 Y Y Y 分别为 n n n 维和 m m m 维随机向量, A A A 和 B B B 分别为 p × n p\times n p×n 和 q × m q\times m q×m 非随机矩阵,则
C o v ( A X , B Y ) = A C o v ( X , Y ) B ′ . {\rm Cov}(AX,BY)=A{\rm Cov}(X,Y)B' \ . Cov(AX,BY)=ACov(X,Y)B′ .
根据定义可得,
C o v ( A X , B Y ) = E [ ( A X − E ( A X ) ) ( B Y − E ( B Y ) ) ′ ] = A E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ′ ] B ′ = A C o v ( X , Y ) B ′ . \begin{aligned} {\rm Cov}(AX,BY)&={\rm E}\left[(AX-{\rm E}(AX))(BY-{\rm E}(BY))'\right] \\ \\ &=A{\rm E}\left[(X-{\rm E}(X))(Y-{\rm E}(Y))'\right]B' \\ \\ &=A{\rm Cov}(X,Y)B' \ . \end{aligned} Cov(AX,BY)=E[(AX−E(AX))(BY−E(BY))′]=AE[(X−E(X))(Y−E(Y))′]B′=ACov(X,Y)B′ .
2.2 随机向量的二次型
设 X = ( X 1 , X 2 , ⋯ , X n ) ′ X=(X_1,X_2,\cdots,X_n)' X=(X1,X2,⋯,Xn)′ 为 n n n 维随机向量, A A A 为 n × n n\times n n×n 对称阵,则称随机变量
X ′ A X = ∑ i = 1 n ∑ j = 1 n a i j X i X j X'AX=\sum_{i=1}^n\sum_{j=1}^na_{ij}X_iX_j X′AX=i=1∑nj=1∑naijXiXj
为 X X X 的二次型。这里要求 X X X 的协方差阵 C o v ( X ) {\rm Cov}(X) Cov(X) 存在。
定理 2.2.1:设 E ( X ) = μ , C o v ( X ) = Σ {\rm E}(X)=\mu,\,{\rm Cov}(X)=\Sigma E(X)=μ,Cov(X)=Σ ,则
E ( X ′ A X ) = μ ′ A μ + t r ( A Σ ) . {\rm E}\left(X'AX\right)=\mu'A\mu+{\rm tr}(A\Sigma) \ . E(X′AX)=μ′Aμ+tr(AΣ) .
对随机向量 X X X 的二次型作如下的变换:
X ′ A X = ( X − μ + μ ) ′ A ( A − μ + μ ) = ( X − μ ) ′ A ( X − μ ) + μ ′ A ( X − μ ) + ( X − μ ) ′ A μ + μ ′ A μ . \begin{aligned} X'AX&=(X-\mu+\mu)'A(A-\mu+\mu) \\ \\ &=(X-\mu)'A(X-\mu)+\mu'A(X-\mu)+(X-\mu)'A\mu+\mu'A\mu \ . \end{aligned} X′AX=(X−μ+μ)′A(A−μ+μ)=(X−μ)′A(X−μ)+μ′A(X−μ)+(X−μ)′Aμ+μ′Aμ .
可以证明上式的第二项和第三项的期望为 0 0 0 ,即
E [ μ ′ A ( X − μ ) ] = μ ′ A [ E ( X ) − μ ] = 0 , E [ ( X − μ ) ′ A μ ] = [ E ( X ) − μ ] ′ A μ = 0 , \begin{aligned} {\rm E}\left[\mu'A(X-\mu)\right]=\mu'A[{\rm E}\left(X\right)-\mu]=0 \ , \\ \\ {\rm E}\left[(X-\mu)'A\mu\right]=[{\rm E}\left(X\right)-\mu]'A\mu=0 \ , \\ \\ \end{aligned} E[μ′A(X−μ)]=μ′A[E(X)−μ]=0 ,E[(X−μ)′Aμ]=[E(X)−μ]′Aμ=0 ,
注意到 ( X − μ ) ′ A ( X − μ ) (X-\mu)'A(X-\mu) (X−μ)′A(X−μ) 是一个随机变量,所以有
( X − μ ) ′ A ( X − μ ) = t r ( ( X − μ ) ′ A ( X − μ ) ) , (X-\mu)'A(X-\mu)={\rm tr}\left((X-\mu)'A(X-\mu)\right) \ , (X−μ)′A(X−μ)=tr((X−μ)′A(X−μ)) ,
利用矩阵的迹的性质 t r ( A B )