【时间序列分析】15.最佳线性预测

十五、最佳线性预测

1.最佳线性预测 L ( Y ∣ X ) L(Y|X) L(YX)

对时间序列的预测无疑是很重要的,探索一个实例是什么样的模型、估计模型参数,都是为了对未来进行预测。要对时间序列进行预测,使用的是历史信息,最简单的形式是线性预测。

由于时间序列是随机变量按时间顺序构成的序列,因此我们先从随机变量开始定义线性预测。

线性预测:用 X = ( X 1 , ⋯   , X n ) ′ \boldsymbol X=(X_1,\cdots,X_n)' X=(X1,,Xn) Y Y Y进行预测,则 Y Y Y的线性预测具有与以下的形式:
a ′ X = ∑ j = 1 n a j X j = X ′ a . \boldsymbol a'\boldsymbol X=\sum_{j=1}^n a_jX_j=\boldsymbol X'\boldsymbol a. aX=j=1najXj=Xa.

任取一组数,将 X \boldsymbol X X进行线性组合后,都可以用作 Y Y Y的预测,当然这样的线性组合对于实际的预测没有任何意义。我们自然希望给出的线性预测是靠谱的,应当具有一些优良性质——如无偏性、最小方差性等,因此,提出最佳线性预测的概念,它指的是无偏估计中,均方误差最小的那个。简化起见,我们先对零均值的随机变量 Y , X Y,\boldsymbol X Y,X进行讨论。

最佳线性预测:设 Y , X j ( 1 ≤ j ≤ n ) Y,X_j(1\le j\le n) Y,Xj(1jn)都是零均值、方差有限的随机变量,如果 ∃ a ∈ R n \exists \boldsymbol a\in\R^n aRn,使得 ∀ ∈ R n \forall \boldsymbol \in\R^n Rn,都有
E ( Y − a ′ X ) 2 ≤ E ( Y − b ′ X ) 2 , {\rm E}(Y-\boldsymbol a'\boldsymbol X)^2\le {\rm E}(Y-\boldsymbol b'\boldsymbol X)^2, E(YaX)2E(YbX)2,
就称 L ( Y ∣ X ) = a ′ X L(Y|\boldsymbol X)=\boldsymbol a'\boldsymbol X L(YX)=aX X \boldsymbol X X Y Y Y的最佳线性预测,没有歧义的情况下也可以记作 Y ^ = L ( Y ∣ X ) \hat Y=L(Y|X) Y^=L(YX)

最佳线性预测的最佳性,体现在它的预测均方误差最小,而由于 Y , X Y,\boldsymbol X Y,X是零均值的,所以均方误差最小也等价于方差最小。另外,如果 E Y = b , E ( X ) = μ {\rm E}Y=b,{\rm E}(\boldsymbol X)=\boldsymbol \mu EY=b,E(X)=μ,就定义 L ( Y ∣ X ) = L ( Y − b ∣ X − μ ) + b L(Y|\boldsymbol X)=L(Y-b|\boldsymbol X-\boldsymbol \mu)+b L(YX)=L(YbXμ)+b,也就是先对其零均值情况作预测后再加上均值项,所以,我们接下来的讨论只需要考虑零均值情况。

2. L ( Y ∣ X ) L(Y|X) L(YX)的求解与性质

给定 Y Y Y X \boldsymbol X X后,应当如何寻找最佳线性预测,换句话说就是如何寻找这个 a \boldsymbol a a,使得 ∀ b \forall \boldsymbol b b,都能让 Y − b ′ X Y-\boldsymbol b'\boldsymbol X YbX的方差比 Y − a ′ X Y-\boldsymbol a'\boldsymbol X YaX大。从这个角度出发,来探索这样的 a \boldsymbol a a应当满足的条件,现在假设 b \boldsymbol b b是任意一个 n n n维常数向量,进行变形。
E ( Y − b ′ X ) 2 = E ( Y − a ′ X + a ′ X − b ′ X ) 2 = E ( Y − a ′ X ) 2 + E [ ( a − b ) ′ X ] 2 + 2 E [ ( Y − a ′ X ) ( a − b ) ′ X ] = E ( Y − a ′ X ) 2 + E [ ( a − b ) ′ X ] 2 + 2 E [ ( Y − a ′ X ) X ′ ( a − b ) ] \begin{aligned} &{\rm E}(Y-\boldsymbol b'\boldsymbol X)^2\\ =&{\rm E}(Y-\boldsymbol a'\boldsymbol X+\boldsymbol a'\boldsymbol X-\boldsymbol b'\boldsymbol X)^2\\ =&{\rm E}(Y-\boldsymbol a'\boldsymbol X)^2+{\rm E}[(\boldsymbol a-\boldsymbol b)'\boldsymbol X]^2+2{\rm E}[(Y-\boldsymbol a'\boldsymbol X)(\boldsymbol a-\boldsymbol b)'\boldsymbol X]\\ =&{\rm E}(Y-\boldsymbol a'\boldsymbol X)^2+{\rm E}[(\boldsymbol a-\boldsymbol b)'\boldsymbol X]^2+2{\rm E}[(Y-\boldsymbol a'\boldsymbol X)\boldsymbol X'(\boldsymbol a-\boldsymbol b)] \end{aligned} ===E(YbX)2E(YaX+aXbX)2E(YaX)2+E[(ab)X]2+2E[(YaX)(ab)X]E(YaX)2+E[(ab)X]2+2E[(YaX)X(ab)]
如果我们希望 E ( Y − b ′ X ) 2 ≥ E ( Y − a ′ X ) 2 {\rm E}(Y-\boldsymbol b'\boldsymbol X)^2\ge {\rm E}(Y-\boldsymbol a'\boldsymbol X)^2 E(YbX)2E(YaX)2恒成立,因为 E [ ( a − b ) ′ X ] 2 ≥ 0 {\rm E}[(\boldsymbol a-\boldsymbol b)'\boldsymbol X]^2\ge 0 E[(ab)X]20,所以只需要最后的交叉项为0即可;更具体地,只要找到不依赖于 b \boldsymbol b b的项 E [ ( Y − a ′ X ) X ′ ] = 0 {\rm E}[(Y-\boldsymbol a'\boldsymbol X)\boldsymbol X']=\boldsymbol 0 E[(YaX)X]=0即可,也就是
E ( Y X ′ ) = a ′ E ( X X ′ ) , {\rm E}(Y\boldsymbol X')=\boldsymbol a'{\rm E}(\boldsymbol X\boldsymbol X'), E(YX)=aE(XX),
这里 E ( X X ′ ) {\rm E}(\boldsymbol X\boldsymbol X') E(XX)就是 X \boldsymbol X X的协方差阵 Γ \Gamma Γ,进行转置,就得到预测方程:
Γ a = E ( X Y ) . \Gamma \boldsymbol a={\rm E}(\boldsymbol XY). Γa=E(XY).
从推导过程可以看出,任何满足预测方程的向量 a \boldsymbol a a都是最佳线性预测的系数组。于是有以下定理:

预测方程:如果 a ∈ R n \boldsymbol a\in\R^n aRn使得
Γ a = E ( X Y ) , \Gamma \boldsymbol a={\rm E}(\boldsymbol XY), Γa=E(XY),
就有 L ( Y ∣ X ) = a ′ X L(Y|\boldsymbol X)=\boldsymbol a'\boldsymbol X L(YX)=aX。称 Γ a = E ( X Y ) \Gamma\boldsymbol a={\rm E}(\boldsymbol XY) Γa=E(XY)为预测方程。

有了这个方程,要把 a \boldsymbol a a求出来,会想到在方程两边同时左乘一个 Γ − 1 \Gamma^{-1} Γ1,但 Γ − 1 \Gamma^{-1} Γ1一定存在吗?并不是。在《1、时间序列与平稳序列》中,我们只说 Γ \Gamma Γ是非负定的,如果 Γ \Gamma Γ半正定就不可逆,而 Γ \Gamma Γ半正定等价于 X \boldsymbol X X线性相关,也就是部分分量能够被其他分量线性表示,这时候就存在“预测信息的冗余”。

X \boldsymbol X X线性相关时,如果将那些可以被线性表示出来的分量去掉,使得 X ~ \tilde{\boldsymbol X} X~成为线性无关的,且 s p a n ( X ) = s p a n ( X ~ ) {\rm span}(\boldsymbol X)={\rm span}(\tilde{\boldsymbol X}) span(X)=span(X~),那么用 X \boldsymbol X X X ~ \tilde {\boldsymbol X} X~ Y Y Y求最佳线性预测,理应得到同样的预测结果,但是这时候 X \boldsymbol X X的系数 a \boldsymbol a a不是唯一的,只是 a ′ X \boldsymbol a'\boldsymbol X aX指向唯一的预测变量

以上是我们的直观想法,认为不论 X \boldsymbol X X是否线性无关,都应该存在对 Y Y Y的最佳线性预测,并且即便表现形式不同,但都指向同一个预测变量,接下来用证明对以上想法进行验证。

最佳线性预测的求解:预测方程 Γ a = E ( X Y ) \Gamma \boldsymbol a={\rm E}(\boldsymbol XY) Γa=E(XY)总是有解的。如果 Γ \Gamma Γ不可逆,则取一个正交阵 A A A,使得
A Γ A ′ = d i a g ( λ 1 , ⋯   , λ r , 0 , ⋯   , 0 ) , A\Gamma A'={\rm diag}(\lambda_1,\cdots,\lambda _r,0,\cdots,0), AΓA=diag(λ1,,λr,0,,0),
定义 Z = A X = ( Z 1 , ⋯   , Z r , 0 , ⋯   , 0 ) \boldsymbol Z=A\boldsymbol X=(Z_1,\cdots,Z_r,0,\cdots,0) Z=AX=(Z1,,Zr,0,,0) ξ = ( Z 1 , ⋯   , Z r ) \boldsymbol \xi=(Z_1,\cdots,Z_r) ξ=(Z1,,Zr),则 E ( ξ ξ ′ ) {\rm E}(\boldsymbol \xi\boldsymbol \xi') E(ξξ)正定,并且当取
α = [ E ( ξ ξ ′ ) ] − 1 E ( ξ Y ) \boldsymbol \alpha=[{\rm E}(\boldsymbol \xi\boldsymbol \xi')]^{-1}{\rm E}(\boldsymbol \xi Y) α=[E(ξξ)]1E(ξY)
时, L ( Y ∣ X ) = L ( Y ∣ ξ ) = α ′ ξ L(Y|\boldsymbol X)=L(Y|\boldsymbol \xi)=\boldsymbol \alpha'\boldsymbol \xi L(YX)=L(Yξ)=αξ

这里 Z 1 , ⋯   , Z r Z_1,\cdots,Z_r Z1,,Zr X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn的线性组合,由于 E ( Z Z ′ ) = A Γ A ′ = d i a g ( λ 1 , ⋯   , λ r , 0 , ⋯   , 0 ) {\rm E}(\boldsymbol Z\boldsymbol Z')=A\Gamma A'={\rm diag}(\lambda_1,\cdots,\lambda_r,0,\cdots,0) E(ZZ)=AΓA=diag(λ1,,λr,0,,0),所以 Z r + 1 = ⋯ = Z n = 0 Z_{r+1}=\cdots =Z_n=0 Zr+1==Zn=0。接下来只要证明
A Γ A ′ [ α 0 n − r ] = E ( [ ξ 0 n − r ] Y ) = A E ( X Y ) , A\Gamma A'\begin{bmatrix} \boldsymbol \alpha \\ \boldsymbol 0_{n-r} \end{bmatrix}={\rm E}\left(\begin{bmatrix} \boldsymbol \xi \\ \boldsymbol 0_{n-r} \end{bmatrix}Y\right)=A{\rm E}(\boldsymbol XY), AΓA[α0nr]=E([ξ0nr]Y)=AE(XY),
然后在方程两边左乘 A ′ A' A即可。

最佳线性预测的唯一性:即使由预测方程决定的 a \boldsymbol a a不唯一( Γ \Gamma Γ退化),但是 a ′ X = L ( Y ∣ X ) \boldsymbol a'\boldsymbol X=L(Y|\boldsymbol X) aX=L(YX)总是唯一的。

由于满足预测方程的 a , b \boldsymbol a,\boldsymbol b a,b会使得
E ( Y − a ′ X ) 2 = E ( Y − b ′ X ) 2 + E [ ( a − b ) ′ X ] 2 , E ( Y − b ′ X ) 2 = E ( Y − a ′ X ) 2 + E [ ( a − b ) ′ X ] 2 , {\rm E}(Y-\boldsymbol a'\boldsymbol X)^2={\rm E}(Y-\boldsymbol b'\boldsymbol X)^2+{\rm E}[(\boldsymbol a-\boldsymbol b)'\boldsymbol X]^2,\\ {\rm E}(Y-\boldsymbol b'\boldsymbol X)^2={\rm E}(Y-\boldsymbol a'\boldsymbol X)^2+{\rm E}[(\boldsymbol a-\boldsymbol b)'\boldsymbol X]^2,\\ E(YaX)2=E(YbX)2+E[(ab)X]2,E(YbX)2=E(YaX)2+E[(ab)X]2,
所以一定有
E [ ( a − b ) ′ X ] 2 = 0 ⇒ a ′ X = b ′ X , a.s. {\rm E}[(\boldsymbol a-\boldsymbol b)'\boldsymbol X]^2=0\Rightarrow \boldsymbol a'\boldsymbol X=\boldsymbol b'\boldsymbol X,\quad \text{a.s.} E[(ab)X]2=0aX=bX,a.s.
最后要注意,最佳线性预测尽管在 L ( Y ∣ X ) L(Y|\boldsymbol X) L(YX)中出现了 Y Y Y,但其内在表现形式依然是 X \boldsymbol X X分量的线性组合

3. L ( Y ∣ X ) L(Y|X) L(YX)的性质

对于最佳线性预测,伴随着无偏性与最小方差性,还拥有以下的性质。

性质1:如果 E ( X Y ) = 0 {\rm E}(\boldsymbol XY)=\boldsymbol 0 E(XY)=0,则 L ( Y ∣ X ) = 0 L(Y|\boldsymbol X)=0 L(YX)=0

由预测方程 Γ a = E ( X Y ) = 0 \Gamma\boldsymbol a={\rm E}(\boldsymbol XY)=\boldsymbol 0 Γa=E(XY)=0可以得到,如果 Γ \Gamma Γ可逆,则自然 a = 0 \boldsymbol a=\boldsymbol0 a=0;否则也会在正交对角化的过程中得到 α = 0 \boldsymbol \alpha=\boldsymbol 0 α=0,进而 a = 0 \boldsymbol a=\boldsymbol 0 a=0

就其实际意义来说, E ( X Y ) = 0 {\rm E}(\boldsymbol XY)=\boldsymbol 0 E(XY)=0意味着 X \boldsymbol X X Y Y Y不相关,用不相关的变量进行预测显然不合理,所以最佳线性预测给出了 0 0 0——无法预测的答复。

性质2:如果 Y = b ′ X Y=\boldsymbol b'\boldsymbol X Y=bX,则 L ( Y ∣ X ) = Y L(Y|\boldsymbol X)=Y L(YX)=Y

既然 Y Y Y本身已经是预测变量的线性组合了,那么用预测变量自然可以精准预测,且预测的均方误差是 0 0 0

性质3:如果 Y = ∑ j = 1 m b j Y j Y=\sum_{j=1}^m b_jY_j Y=j=1mbjYj,则 L ( Y ∣ X ) = ∑ j = 1 m b j L ( Y j ∣ X ) L(Y|\boldsymbol X)=\sum_{j=1}^mb_jL(Y_j|\boldsymbol X) L(YX)=j=1mbjL(YjX)

这表明,最佳线性预测是一种线性运算。证明过程为,设 L ( Y j ∣ X ) = a j ′ X L(Y_j|\boldsymbol X)=\boldsymbol a_j'\boldsymbol X L(YjX)=ajX,就有 Γ a j = E ( X Y j ) \Gamma\boldsymbol a_j={\rm E}(\boldsymbol XY_j) Γaj=E(XYj),于是
Γ ( ∑ j = 1 m b j a j ) = ∑ j = 1 m b j ( Γ a j ) = E ( X ∑ j = 1 m b j Y i ) = E ( X Y ) . \Gamma\left(\sum_{j=1}^mb_j\boldsymbol a_j \right)=\sum_{j=1}^mb_j(\Gamma\boldsymbol a_j)={\rm E}\left(\boldsymbol X\sum_{j=1}^mb_jY_i \right)={\rm E}(\boldsymbol XY). Γ(j=1mbjaj)=j=1mbj(Γaj)=E(Xj=1mbjYi)=E(XY).
所以
L ( Y ∣ X ) = X ′ ( ∑ j = 1 m b j a j ) = ∑ j = 1 m b j X ′ a j = ∑ j = 1 m b j L ( Y j ∣ X ) . L(Y|\boldsymbol X)=\boldsymbol X'\left(\sum_{j=1}^mb_j\boldsymbol a_j \right)=\sum_{j=1}^mb_j \boldsymbol X'\boldsymbol a_j=\sum_{j=1}^m b_jL(Y_j|\boldsymbol X). L(YX)=X(j=1mbjaj)=j=1mbjXaj=j=1mbjL(YjX).

性质4:设 X = ( X 1 , ⋯   , X n ) ′ , Z = ( Z 1 , ⋯   , Z m ) ′ \boldsymbol X=(X_1,\cdots,X_n)',\boldsymbol Z=(Z_1,\cdots,Z_m)' X=(X1,,Xn),Z=(Z1,,Zm)。如果 E ( X Z ′ ) = O {\rm E}(\boldsymbol X\boldsymbol Z')=\boldsymbol O E(XZ)=O,则有
L ( Y ∣ X , Z ) = L ( Y ∣ X ) + L ( Y ∣ Z ) . L(Y|\boldsymbol X,\boldsymbol Z)=L(Y|\boldsymbol X)+L(Y|\boldsymbol Z). L(YX,Z)=L(YX)+L(YZ).

这个性质里, E ( X Z ′ ) = O {\rm E}(\boldsymbol X\boldsymbol Z')=\boldsymbol O E(XZ)=O表明任意 X i , Z j X_i,Z_j Xi,Zj都是不相关的,由此可以推出,用 X , Z \boldsymbol X,\boldsymbol Z X,Z预测 Y Y Y得到的结果,是分别用 X \boldsymbol X X预测 Y Y Y和用 Z \boldsymbol Z Z预测 Y Y Y的结果之和。这表示,不相关的变量组能提供的预测信息也是不重合的,因而可以直接叠加。

要给出证明,设 L ( Y ∣ X ) = a ′ X , L ( Y ∣ Z ) = b ′ Z L(Y|\boldsymbol X)=\boldsymbol a'\boldsymbol X,L(Y|\boldsymbol Z)=\boldsymbol b'\boldsymbol Z L(YX)=aX,L(YZ)=bZ,那么要证明的就是 L ( Y ∣ X , Z ) = a ′ X + b ′ Z L(Y|\boldsymbol X,\boldsymbol Z)=\boldsymbol a'\boldsymbol X+\boldsymbol b'\boldsymbol Z L(YX,Z)=aX+bZ,从预测方程的角度,就是证明
[ Γ X O O Γ Z ] [ a b ] = E ( [ X Z ] Y ) , \begin{bmatrix} \Gamma_X & \boldsymbol O \\ \boldsymbol O & \Gamma_Z \end{bmatrix} \begin{bmatrix} \boldsymbol a \\ \boldsymbol b \end{bmatrix}={\rm E}\left(\begin{bmatrix} \boldsymbol X \\ \boldsymbol Z \end{bmatrix}Y\right), [ΓXOOΓZ][ab]=E([XZ]Y),
将其展开就是 Γ X a = E ( X Y ) \Gamma_X\boldsymbol a={\rm E}(\boldsymbol XY) ΓXa=E(XY) Γ Z b = E ( Z Y ) \Gamma_Z \boldsymbol b={\rm E}(\boldsymbol ZY) ΓZb=E(ZY)两个显然的结果。

性质5:设 Y ~ = b ′ X \tilde Y=\boldsymbol b'\boldsymbol X Y~=bX X \boldsymbol X X的线性组合,则 Y ~ = L ( Y ∣ X ) \tilde Y=L(Y|\boldsymbol X) Y~=L(YX)的充要条件是
E ( X j ( Y − Y ~ ) ) = 0 , 1 ≤ j ≤ n , {\rm E}(X_j(Y-\tilde Y))=0,\quad 1\le j\le n, E(Xj(YY~))=0,1jn,
E [ X ( Y − Y ~ ) ] = 0 {\rm E}[\boldsymbol X(Y-\tilde Y)]=\boldsymbol 0 E[X(YY~)]=0

这个性质给出了 X \boldsymbol X X的线性组合是 Y Y Y的最佳线性预测的充要条件,简单来说,就是要求 X \boldsymbol X X的线性组合包含 Y Y Y可以用 X \boldsymbol X X表示的全部信息,以至于 Y Y Y扣掉 X \boldsymbol X X之后与 X \boldsymbol X X不再相关,也就是 X \boldsymbol X X不能再对 Y Y Y的预测起到任何作用。

充分性方面,如果 b ′ X \boldsymbol b'\boldsymbol X bX Y Y Y的最佳线性预测,则预测方程成立,那么
E ( X ( Y − b ′ X ) ) = E ( X Y ) − E ( X ⋅ X ′ b ) = E ( X Y ) − Γ b = 预 测 方 程 0 . {\rm E}(\boldsymbol X(Y-\boldsymbol b'\boldsymbol X))={\rm E}(\boldsymbol XY)-{\rm E}(\boldsymbol X\cdot \boldsymbol X'\boldsymbol b)={\rm E}(\boldsymbol XY)-\Gamma \boldsymbol b\xlongequal{预测方程}\boldsymbol 0. E(X(YbX))=E(XY)E(XXb)=E(XY)Γb 0.
必要性方面,如果 E ( X ( Y − b ′ X ) ) = 0 {\rm E}(\boldsymbol X(Y-\boldsymbol b'\boldsymbol X))=\boldsymbol 0 E(X(YbX))=0,那么显然有 E ( X Y ) = Γ b {\rm E}(\boldsymbol XY)=\Gamma\boldsymbol b E(XY)=Γb,也就是预测方程成立。

性质6:均方误差的可展开性,即
E ( Y − L ( Y ∣ X ) ) 2 = E Y 2 − E [ L ( Y ∣ X ) ] 2 = E Y 2 − a ′ Γ a . {\rm E}(Y-L(Y|\boldsymbol X))^2={\rm E}Y^2-{\rm E}[L(Y|\boldsymbol X)]^2={\rm E}Y^2-\boldsymbol a'\Gamma\boldsymbol a. E(YL(YX))2=EY2E[L(YX)]2=EY2aΓa.

这是一个重要的计算性质,由此还可以得到一个重要的不等式:
E [ L ( Y ∣ X ) ] 2 ≤ E Y 2 , {\rm E}[L(Y|\boldsymbol X)]^2\le {\rm E}Y^2, E[L(YX)]2EY2,
因为均方误差非负。这表明对 Y Y Y的最佳线性预测方差总比 Y Y Y本身的方差小,也就是说最佳线性预测方差有上限

性质7:如果 Y ^ = L ( Y ∣ X 1 , ⋯   , X n ) , Y ~ = L ( Y ∣ X 1 , ⋯   , X n − 1 ) \hat Y=L(Y|X_1,\cdots,X_n),\tilde Y=L(Y|X_1,\cdots,X_{n-1}) Y^=L(YX1,,Xn),Y~=L(YX1,,Xn1),则有
L ( Y ^ ∣ X 1 , ⋯   , X n − 1 ) = Y ~ , E ( Y − Y ^ ) 2 ≤ E ( Y − Y ~ ) 2 . L(\hat Y|X_1,\cdots,X_{n-1})=\tilde Y,\\ {\rm E}(Y-\hat Y)^2\le {\rm E}(Y-\tilde Y)^2. L(Y^X1,,Xn1)=Y~,E(YY^)2E(YY~)2.

这条性质表明最佳线性预测是一致的,不会因为新加入的信息打乱原有的信息结构,同时随着信息增多,预测效果一定不会变差。

要证明 Y ~ = L ( Y ^ ∣ X 1 , ⋯   , X n − 1 ) \tilde Y=L(\hat Y|X_1,\cdots,X_{n-1}) Y~=L(Y^X1,,Xn1),只需要证明 X 1 , ⋯   , X n − 1 X_1,\cdots,X_{n-1} X1,,Xn1都与 Y ^ − Y ~ \hat Y-\tilde Y Y^Y~正交即可。由于 Y − Y ~ Y-\tilde Y YY~ Y − Y ^ Y-\hat Y YY^都与 X 1 , ⋯   , X n − 1 X_1,\cdots,X_{n-1} X1,,Xn1正交,所以
Y ^ − Y ~ = ( Y − Y ~ ) − ( Y − Y ^ ) \hat Y-\tilde Y=(Y-\tilde Y)-(Y-\hat Y) Y^Y~=(YY~)(YY^)
也与 X 1 , ⋯   , X n − 1 X_1,\cdots,X_{n-1} X1,,Xn1正交。

性质8:如果 X \boldsymbol X X m m m维向量, Y \boldsymbol Y Y n n n维向量且 X = A Y , Y = B X \boldsymbol X=A\boldsymbol Y,\boldsymbol Y=B\boldsymbol X X=AY,Y=BX,则
L ( Z ∣ X ) = L ( Z ∣ Y ) . L(Z|\boldsymbol X)=L(Z|\boldsymbol Y). L(ZX)=L(ZY).

这里, X = A Y \boldsymbol X=A\boldsymbol Y X=AY Y = B X \boldsymbol Y=B\boldsymbol X Y=BX,代表 X , Y \boldsymbol X,\boldsymbol Y X,Y可以相互线性表示,是等价向量组,运用等价向量组预测同一个变量自然应该有相同的形式。

要证明,设 a ′ X = L ( Z ∣ X ) , b ′ Y = L ( Z ∣ Y ) \boldsymbol a'\boldsymbol X=L(Z|\boldsymbol X),\boldsymbol b'\boldsymbol Y=L(Z|\boldsymbol Y) aX=L(ZX),bY=L(ZY),则由 E ( X X ′ ) a = E ( X Z ) {\rm E}(\boldsymbol X\boldsymbol X')\boldsymbol a={\rm E}(\boldsymbol XZ) E(XX)a=E(XZ),对 E ( X X ′ ) a = E ( X Z ) {\rm E}(\boldsymbol X\boldsymbol X')\boldsymbol a={\rm E}(\boldsymbol XZ) E(XX)a=E(XZ)两边同时左乘 B B B,可以得到
E ( Y X ′ ) a = E ( Y Z ) {\rm E}(\boldsymbol Y\boldsymbol X')\boldsymbol a={\rm E}(\boldsymbol YZ) E(YX)a=E(YZ)
X = A Y \boldsymbol X=A\boldsymbol Y X=AY X ′ = Y ′ A ′ \boldsymbol X'=\boldsymbol Y'A' X=YA,所以 E ( Y Y ′ ) A ′ a = E ( Y Z ) {\rm E}(\boldsymbol Y\boldsymbol Y')A'\boldsymbol a={\rm E}(\boldsymbol YZ) E(YY)Aa=E(YZ),即
L ( Z ∣ Y ) = a ′ A Y = a ′ X = L ( Z ∣ X ) . L(Z|\boldsymbol Y)=\boldsymbol a'A\boldsymbol Y=\boldsymbol a'\boldsymbol X=L(Z|\boldsymbol X). L(ZY)=aAY=aX=L(ZX).

回顾总结

虽然本文不涉及时间序列,但它为时间序列的线性预测打下了基础。

  1. 最佳线性预测指的是,用 X = ( X 1 , ⋯   , X n ) \boldsymbol X=(X_1,\cdots,X_n) X=(X1,,Xn)的线性函数 a ′ X \boldsymbol a'\boldsymbol X aX Y Y Y进行预测,使得预测的均方误差最小,也就是 ∀ b ∈ R n \forall \boldsymbol b\in\R^n bRn
    E ( Y − a ′ X ) 2 ≤ E ( Y − b ′ X ) 2 . {\rm E}(Y-\boldsymbol a'\boldsymbol X)^2\le {\rm E}(Y-\boldsymbol b'\boldsymbol X)^2. E(YaX)2E(YbX)2.

  2. 最佳线性预测的系数 a \boldsymbol a a是满足预测方程:
    Γ a = E ( X Y ) \Gamma\boldsymbol a={\rm E}(\boldsymbol XY) Γa=E(XY)
    的实数向量,这里 Γ \Gamma Γ X \boldsymbol X X的自协方差矩阵,且
    E ( Y − L ( Y ∣ X ) ) 2 = E Y 2 − E [ L ( Y ∣ X ) ] 2 ≥ 0. {\rm E}(Y-L(Y|\boldsymbol X))^2={\rm E}Y^2-{\rm E}[L(Y|\boldsymbol X)]^2\ge 0. E(YL(YX))2=EY2E[L(YX)]20.
    E [ L ( Y ∣ X ) ] 2 ≤ E Y 2 {\rm E}[L(Y|\boldsymbol X)]^2\le {\rm E}Y^2 E[L(YX)]2EY2

  3. 尽管 Γ \Gamma Γ不一定可逆,但预测方程一定有解,且 ∀ a \forall \boldsymbol a a满足预测方程, a ′ X \boldsymbol a'\boldsymbol X aX总是 a . s . {\rm a.s.} a.s.唯一。

  4. 最佳线性预测具有线性性,是一个算子。

  5. 最佳线性预测与相关性存在重要联系,实际上最佳线性预测 L ( Y ∣ X ) L(Y|\boldsymbol X) L(YX)中涵盖了 Y Y Y所包含的 X \boldsymbol X X的全部信息,因而可以直观地得到以下结论:
    E ( X Y ) = 0 ⇒ L ( Y ∣ X ) = 0 , E ( X Z ′ ) = O ⇒ L ( Y ∣ X , Z ) = L ( Y ∣ X ) + L ( Y ∣ Z ) , E [ X ( Y − L ( Y ∣ X ) ) ] = 0 . {\rm E}(\boldsymbol XY)=\boldsymbol 0\Rightarrow L(Y|\boldsymbol X)=0,\\ {\rm E}(\boldsymbol X\boldsymbol Z')=\boldsymbol O\Rightarrow L(Y|\boldsymbol X,\boldsymbol Z)=L(Y|\boldsymbol X)+L(Y|\boldsymbol Z),\\ {\rm E}[\boldsymbol X(Y-L(Y|\boldsymbol X))]=\boldsymbol 0. E(XY)=0L(YX)=0,E(XZ)=OL(YX,Z)=L(YX)+L(YZ),E[X(YL(YX))]=0.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值