文章目录
十五、最佳线性预测
1.最佳线性预测 L ( Y ∣ X ) L(Y|X) L(Y∣X)
对时间序列的预测无疑是很重要的,探索一个实例是什么样的模型、估计模型参数,都是为了对未来进行预测。要对时间序列进行预测,使用的是历史信息,最简单的形式是线性预测。
由于时间序列是随机变量按时间顺序构成的序列,因此我们先从随机变量开始定义线性预测。
线性预测:用 X = ( X 1 , ⋯ , X n ) ′ \boldsymbol X=(X_1,\cdots,X_n)' X=(X1,⋯,Xn)′对 Y Y Y进行预测,则 Y Y Y的线性预测具有与以下的形式:
a ′ X = ∑ j = 1 n a j X j = X ′ a . \boldsymbol a'\boldsymbol X=\sum_{j=1}^n a_jX_j=\boldsymbol X'\boldsymbol a. a′X=j=1∑najXj=X′a.
任取一组数,将 X \boldsymbol X X进行线性组合后,都可以用作 Y Y Y的预测,当然这样的线性组合对于实际的预测没有任何意义。我们自然希望给出的线性预测是靠谱的,应当具有一些优良性质——如无偏性、最小方差性等,因此,提出最佳线性预测的概念,它指的是无偏估计中,均方误差最小的那个。简化起见,我们先对零均值的随机变量 Y , X Y,\boldsymbol X Y,X进行讨论。
最佳线性预测:设 Y , X j ( 1 ≤ j ≤ n ) Y,X_j(1\le j\le n) Y,Xj(1≤j≤n)都是零均值、方差有限的随机变量,如果 ∃ a ∈ R n \exists \boldsymbol a\in\R^n ∃a∈Rn,使得 ∀ ∈ R n \forall \boldsymbol \in\R^n ∀∈Rn,都有
E ( Y − a ′ X ) 2 ≤ E ( Y − b ′ X ) 2 , {\rm E}(Y-\boldsymbol a'\boldsymbol X)^2\le {\rm E}(Y-\boldsymbol b'\boldsymbol X)^2, E(Y−a′X)2≤E(Y−b′X)2,
就称 L ( Y ∣ X ) = a ′ X L(Y|\boldsymbol X)=\boldsymbol a'\boldsymbol X L(Y∣X)=a′X是 X \boldsymbol X X对 Y Y Y的最佳线性预测,没有歧义的情况下也可以记作 Y ^ = L ( Y ∣ X ) \hat Y=L(Y|X) Y^=L(Y∣X)。
最佳线性预测的最佳性,体现在它的预测均方误差最小,而由于 Y , X Y,\boldsymbol X Y,X是零均值的,所以均方误差最小也等价于方差最小。另外,如果 E Y = b , E ( X ) = μ {\rm E}Y=b,{\rm E}(\boldsymbol X)=\boldsymbol \mu EY=b,E(X)=μ,就定义 L ( Y ∣ X ) = L ( Y − b ∣ X − μ ) + b L(Y|\boldsymbol X)=L(Y-b|\boldsymbol X-\boldsymbol \mu)+b L(Y∣X)=L(Y−b∣X−μ)+b,也就是先对其零均值情况作预测后再加上均值项,所以,我们接下来的讨论只需要考虑零均值情况。
2. L ( Y ∣ X ) L(Y|X) L(Y∣X)的求解与性质
给定
Y
Y
Y和
X
\boldsymbol X
X后,应当如何寻找最佳线性预测,换句话说就是如何寻找这个
a
\boldsymbol a
a,使得
∀
b
\forall \boldsymbol b
∀b,都能让
Y
−
b
′
X
Y-\boldsymbol b'\boldsymbol X
Y−b′X的方差比
Y
−
a
′
X
Y-\boldsymbol a'\boldsymbol X
Y−a′X大。从这个角度出发,来探索这样的
a
\boldsymbol a
a应当满足的条件,现在假设
b
\boldsymbol b
b是任意一个
n
n
n维常数向量,进行变形。
E
(
Y
−
b
′
X
)
2
=
E
(
Y
−
a
′
X
+
a
′
X
−
b
′
X
)
2
=
E
(
Y
−
a
′
X
)
2
+
E
[
(
a
−
b
)
′
X
]
2
+
2
E
[
(
Y
−
a
′
X
)
(
a
−
b
)
′
X
]
=
E
(
Y
−
a
′
X
)
2
+
E
[
(
a
−
b
)
′
X
]
2
+
2
E
[
(
Y
−
a
′
X
)
X
′
(
a
−
b
)
]
\begin{aligned} &{\rm E}(Y-\boldsymbol b'\boldsymbol X)^2\\ =&{\rm E}(Y-\boldsymbol a'\boldsymbol X+\boldsymbol a'\boldsymbol X-\boldsymbol b'\boldsymbol X)^2\\ =&{\rm E}(Y-\boldsymbol a'\boldsymbol X)^2+{\rm E}[(\boldsymbol a-\boldsymbol b)'\boldsymbol X]^2+2{\rm E}[(Y-\boldsymbol a'\boldsymbol X)(\boldsymbol a-\boldsymbol b)'\boldsymbol X]\\ =&{\rm E}(Y-\boldsymbol a'\boldsymbol X)^2+{\rm E}[(\boldsymbol a-\boldsymbol b)'\boldsymbol X]^2+2{\rm E}[(Y-\boldsymbol a'\boldsymbol X)\boldsymbol X'(\boldsymbol a-\boldsymbol b)] \end{aligned}
===E(Y−b′X)2E(Y−a′X+a′X−b′X)2E(Y−a′X)2+E[(a−b)′X]2+2E[(Y−a′X)(a−b)′X]E(Y−a′X)2+E[(a−b)′X]2+2E[(Y−a′X)X′(a−b)]
如果我们希望
E
(
Y
−
b
′
X
)
2
≥
E
(
Y
−
a
′
X
)
2
{\rm E}(Y-\boldsymbol b'\boldsymbol X)^2\ge {\rm E}(Y-\boldsymbol a'\boldsymbol X)^2
E(Y−b′X)2≥E(Y−a′X)2恒成立,因为
E
[
(
a
−
b
)
′
X
]
2
≥
0
{\rm E}[(\boldsymbol a-\boldsymbol b)'\boldsymbol X]^2\ge 0
E[(a−b)′X]2≥0,所以只需要最后的交叉项为0即可;更具体地,只要找到不依赖于
b
\boldsymbol b
b的项
E
[
(
Y
−
a
′
X
)
X
′
]
=
0
{\rm E}[(Y-\boldsymbol a'\boldsymbol X)\boldsymbol X']=\boldsymbol 0
E[(Y−a′X)X′]=0即可,也就是
E
(
Y
X
′
)
=
a
′
E
(
X
X
′
)
,
{\rm E}(Y\boldsymbol X')=\boldsymbol a'{\rm E}(\boldsymbol X\boldsymbol X'),
E(YX′)=a′E(XX′),
这里
E
(
X
X
′
)
{\rm E}(\boldsymbol X\boldsymbol X')
E(XX′)就是
X
\boldsymbol X
X的协方差阵
Γ
\Gamma
Γ,进行转置,就得到预测方程:
Γ
a
=
E
(
X
Y
)
.
\Gamma \boldsymbol a={\rm E}(\boldsymbol XY).
Γa=E(XY).
从推导过程可以看出,任何满足预测方程的向量
a
\boldsymbol a
a都是最佳线性预测的系数组。于是有以下定理:
预测方程:如果 a ∈ R n \boldsymbol a\in\R^n a∈Rn使得
Γ a = E ( X Y ) , \Gamma \boldsymbol a={\rm E}(\boldsymbol XY), Γa=E(XY),
就有 L ( Y ∣ X ) = a ′ X L(Y|\boldsymbol X)=\boldsymbol a'\boldsymbol X L(Y∣X)=a′X。称 Γ a = E ( X Y ) \Gamma\boldsymbol a={\rm E}(\boldsymbol XY) Γa=E(XY)为预测方程。
有了这个方程,要把 a \boldsymbol a a求出来,会想到在方程两边同时左乘一个 Γ − 1 \Gamma^{-1} Γ−1,但 Γ − 1 \Gamma^{-1} Γ−1一定存在吗?并不是。在《1、时间序列与平稳序列》中,我们只说 Γ \Gamma Γ是非负定的,如果 Γ \Gamma Γ半正定就不可逆,而 Γ \Gamma Γ半正定等价于 X \boldsymbol X X线性相关,也就是部分分量能够被其他分量线性表示,这时候就存在“预测信息的冗余”。
在 X \boldsymbol X X线性相关时,如果将那些可以被线性表示出来的分量去掉,使得 X ~ \tilde{\boldsymbol X} X~成为线性无关的,且 s p a n ( X ) = s p a n ( X ~ ) {\rm span}(\boldsymbol X)={\rm span}(\tilde{\boldsymbol X}) span(X)=span(X~),那么用 X \boldsymbol X X与 X ~ \tilde {\boldsymbol X} X~对 Y Y Y求最佳线性预测,理应得到同样的预测结果,但是这时候 X \boldsymbol X X的系数 a \boldsymbol a a不是唯一的,只是 a ′ X \boldsymbol a'\boldsymbol X a′X指向唯一的预测变量。
以上是我们的直观想法,认为不论 X \boldsymbol X X是否线性无关,都应该存在对 Y Y Y的最佳线性预测,并且即便表现形式不同,但都指向同一个预测变量,接下来用证明对以上想法进行验证。
最佳线性预测的求解:预测方程 Γ a = E ( X Y ) \Gamma \boldsymbol a={\rm E}(\boldsymbol XY) Γa=E(XY)总是有解的。如果 Γ \Gamma Γ不可逆,则取一个正交阵 A A A,使得
A Γ A ′ = d i a g ( λ 1 , ⋯ , λ r , 0 , ⋯ , 0 ) , A\Gamma A'={\rm diag}(\lambda_1,\cdots,\lambda _r,0,\cdots,0), AΓA′=diag(λ1,⋯,λr,0,⋯,0),
定义 Z = A X = ( Z 1 , ⋯ , Z r , 0 , ⋯ , 0 ) \boldsymbol Z=A\boldsymbol X=(Z_1,\cdots,Z_r,0,\cdots,0) Z=AX=(Z1,⋯,Zr,0,⋯,0)和 ξ = ( Z 1 , ⋯ , Z r ) \boldsymbol \xi=(Z_1,\cdots,Z_r) ξ=(Z1,⋯,Zr),则 E ( ξ ξ ′ ) {\rm E}(\boldsymbol \xi\boldsymbol \xi') E(ξξ′)正定,并且当取
α = [ E ( ξ ξ ′ ) ] − 1 E ( ξ Y ) \boldsymbol \alpha=[{\rm E}(\boldsymbol \xi\boldsymbol \xi')]^{-1}{\rm E}(\boldsymbol \xi Y) α=[E(ξξ′)]−1E(ξY)
时, L ( Y ∣ X ) = L ( Y ∣ ξ ) = α ′ ξ L(Y|\boldsymbol X)=L(Y|\boldsymbol \xi)=\boldsymbol \alpha'\boldsymbol \xi L(Y∣X)=L(Y∣ξ)=α′ξ。
这里
Z
1
,
⋯
,
Z
r
Z_1,\cdots,Z_r
Z1,⋯,Zr是
X
1
,
⋯
,
X
n
X_1,\cdots,X_n
X1,⋯,Xn的线性组合,由于
E
(
Z
Z
′
)
=
A
Γ
A
′
=
d
i
a
g
(
λ
1
,
⋯
,
λ
r
,
0
,
⋯
,
0
)
{\rm E}(\boldsymbol Z\boldsymbol Z')=A\Gamma A'={\rm diag}(\lambda_1,\cdots,\lambda_r,0,\cdots,0)
E(ZZ′)=AΓA′=diag(λ1,⋯,λr,0,⋯,0),所以
Z
r
+
1
=
⋯
=
Z
n
=
0
Z_{r+1}=\cdots =Z_n=0
Zr+1=⋯=Zn=0。接下来只要证明
A
Γ
A
′
[
α
0
n
−
r
]
=
E
(
[
ξ
0
n
−
r
]
Y
)
=
A
E
(
X
Y
)
,
A\Gamma A'\begin{bmatrix} \boldsymbol \alpha \\ \boldsymbol 0_{n-r} \end{bmatrix}={\rm E}\left(\begin{bmatrix} \boldsymbol \xi \\ \boldsymbol 0_{n-r} \end{bmatrix}Y\right)=A{\rm E}(\boldsymbol XY),
AΓA′[α0n−r]=E([ξ0n−r]Y)=AE(XY),
然后在方程两边左乘
A
′
A'
A′即可。
最佳线性预测的唯一性:即使由预测方程决定的 a \boldsymbol a a不唯一( Γ \Gamma Γ退化),但是 a ′ X = L ( Y ∣ X ) \boldsymbol a'\boldsymbol X=L(Y|\boldsymbol X) a′X=L(Y∣X)总是唯一的。
由于满足预测方程的
a
,
b
\boldsymbol a,\boldsymbol b
a,b会使得
E
(
Y
−
a
′
X
)
2
=
E
(
Y
−
b
′
X
)
2
+
E
[
(
a
−
b
)
′
X
]
2
,
E
(
Y
−
b
′
X
)
2
=
E
(
Y
−
a
′
X
)
2
+
E
[
(
a
−
b
)
′
X
]
2
,
{\rm E}(Y-\boldsymbol a'\boldsymbol X)^2={\rm E}(Y-\boldsymbol b'\boldsymbol X)^2+{\rm E}[(\boldsymbol a-\boldsymbol b)'\boldsymbol X]^2,\\ {\rm E}(Y-\boldsymbol b'\boldsymbol X)^2={\rm E}(Y-\boldsymbol a'\boldsymbol X)^2+{\rm E}[(\boldsymbol a-\boldsymbol b)'\boldsymbol X]^2,\\
E(Y−a′X)2=E(Y−b′X)2+E[(a−b)′X]2,E(Y−b′X)2=E(Y−a′X)2+E[(a−b)′X]2,
所以一定有
E
[
(
a
−
b
)
′
X
]
2
=
0
⇒
a
′
X
=
b
′
X
,
a.s.
{\rm E}[(\boldsymbol a-\boldsymbol b)'\boldsymbol X]^2=0\Rightarrow \boldsymbol a'\boldsymbol X=\boldsymbol b'\boldsymbol X,\quad \text{a.s.}
E[(a−b)′X]2=0⇒a′X=b′X,a.s.
最后要注意,最佳线性预测尽管在
L
(
Y
∣
X
)
L(Y|\boldsymbol X)
L(Y∣X)中出现了
Y
Y
Y,但其内在表现形式依然是
X
\boldsymbol X
X分量的线性组合。
3. L ( Y ∣ X ) L(Y|X) L(Y∣X)的性质
对于最佳线性预测,伴随着无偏性与最小方差性,还拥有以下的性质。
性质1:如果 E ( X Y ) = 0 {\rm E}(\boldsymbol XY)=\boldsymbol 0 E(XY)=0,则 L ( Y ∣ X ) = 0 L(Y|\boldsymbol X)=0 L(Y∣X)=0。
由预测方程 Γ a = E ( X Y ) = 0 \Gamma\boldsymbol a={\rm E}(\boldsymbol XY)=\boldsymbol 0 Γa=E(XY)=0可以得到,如果 Γ \Gamma Γ可逆,则自然 a = 0 \boldsymbol a=\boldsymbol0 a=0;否则也会在正交对角化的过程中得到 α = 0 \boldsymbol \alpha=\boldsymbol 0 α=0,进而 a = 0 \boldsymbol a=\boldsymbol 0 a=0。
就其实际意义来说, E ( X Y ) = 0 {\rm E}(\boldsymbol XY)=\boldsymbol 0 E(XY)=0意味着 X \boldsymbol X X和 Y Y Y不相关,用不相关的变量进行预测显然不合理,所以最佳线性预测给出了 0 0 0——无法预测的答复。
性质2:如果 Y = b ′ X Y=\boldsymbol b'\boldsymbol X Y=b′X,则 L ( Y ∣ X ) = Y L(Y|\boldsymbol X)=Y L(Y∣X)=Y。
既然 Y Y Y本身已经是预测变量的线性组合了,那么用预测变量自然可以精准预测,且预测的均方误差是 0 0 0。
性质3:如果 Y = ∑ j = 1 m b j Y j Y=\sum_{j=1}^m b_jY_j Y=∑j=1mbjYj,则 L ( Y ∣ X ) = ∑ j = 1 m b j L ( Y j ∣ X ) L(Y|\boldsymbol X)=\sum_{j=1}^mb_jL(Y_j|\boldsymbol X) L(Y∣X)=∑j=1mbjL(Yj∣X)。
这表明,最佳线性预测是一种线性运算。证明过程为,设
L
(
Y
j
∣
X
)
=
a
j
′
X
L(Y_j|\boldsymbol X)=\boldsymbol a_j'\boldsymbol X
L(Yj∣X)=aj′X,就有
Γ
a
j
=
E
(
X
Y
j
)
\Gamma\boldsymbol a_j={\rm E}(\boldsymbol XY_j)
Γaj=E(XYj),于是
Γ
(
∑
j
=
1
m
b
j
a
j
)
=
∑
j
=
1
m
b
j
(
Γ
a
j
)
=
E
(
X
∑
j
=
1
m
b
j
Y
i
)
=
E
(
X
Y
)
.
\Gamma\left(\sum_{j=1}^mb_j\boldsymbol a_j \right)=\sum_{j=1}^mb_j(\Gamma\boldsymbol a_j)={\rm E}\left(\boldsymbol X\sum_{j=1}^mb_jY_i \right)={\rm E}(\boldsymbol XY).
Γ(j=1∑mbjaj)=j=1∑mbj(Γaj)=E(Xj=1∑mbjYi)=E(XY).
所以
L
(
Y
∣
X
)
=
X
′
(
∑
j
=
1
m
b
j
a
j
)
=
∑
j
=
1
m
b
j
X
′
a
j
=
∑
j
=
1
m
b
j
L
(
Y
j
∣
X
)
.
L(Y|\boldsymbol X)=\boldsymbol X'\left(\sum_{j=1}^mb_j\boldsymbol a_j \right)=\sum_{j=1}^mb_j \boldsymbol X'\boldsymbol a_j=\sum_{j=1}^m b_jL(Y_j|\boldsymbol X).
L(Y∣X)=X′(j=1∑mbjaj)=j=1∑mbjX′aj=j=1∑mbjL(Yj∣X).
性质4:设 X = ( X 1 , ⋯ , X n ) ′ , Z = ( Z 1 , ⋯ , Z m ) ′ \boldsymbol X=(X_1,\cdots,X_n)',\boldsymbol Z=(Z_1,\cdots,Z_m)' X=(X1,⋯,Xn)′,Z=(Z1,⋯,Zm)′。如果 E ( X Z ′ ) = O {\rm E}(\boldsymbol X\boldsymbol Z')=\boldsymbol O E(XZ′)=O,则有
L ( Y ∣ X , Z ) = L ( Y ∣ X ) + L ( Y ∣ Z ) . L(Y|\boldsymbol X,\boldsymbol Z)=L(Y|\boldsymbol X)+L(Y|\boldsymbol Z). L(Y∣X,Z)=L(Y∣X)+L(Y∣Z).
这个性质里, E ( X Z ′ ) = O {\rm E}(\boldsymbol X\boldsymbol Z')=\boldsymbol O E(XZ′)=O表明任意 X i , Z j X_i,Z_j Xi,Zj都是不相关的,由此可以推出,用 X , Z \boldsymbol X,\boldsymbol Z X,Z预测 Y Y Y得到的结果,是分别用 X \boldsymbol X X预测 Y Y Y和用 Z \boldsymbol Z Z预测 Y Y Y的结果之和。这表示,不相关的变量组能提供的预测信息也是不重合的,因而可以直接叠加。
要给出证明,设
L
(
Y
∣
X
)
=
a
′
X
,
L
(
Y
∣
Z
)
=
b
′
Z
L(Y|\boldsymbol X)=\boldsymbol a'\boldsymbol X,L(Y|\boldsymbol Z)=\boldsymbol b'\boldsymbol Z
L(Y∣X)=a′X,L(Y∣Z)=b′Z,那么要证明的就是
L
(
Y
∣
X
,
Z
)
=
a
′
X
+
b
′
Z
L(Y|\boldsymbol X,\boldsymbol Z)=\boldsymbol a'\boldsymbol X+\boldsymbol b'\boldsymbol Z
L(Y∣X,Z)=a′X+b′Z,从预测方程的角度,就是证明
[
Γ
X
O
O
Γ
Z
]
[
a
b
]
=
E
(
[
X
Z
]
Y
)
,
\begin{bmatrix} \Gamma_X & \boldsymbol O \\ \boldsymbol O & \Gamma_Z \end{bmatrix} \begin{bmatrix} \boldsymbol a \\ \boldsymbol b \end{bmatrix}={\rm E}\left(\begin{bmatrix} \boldsymbol X \\ \boldsymbol Z \end{bmatrix}Y\right),
[ΓXOOΓZ][ab]=E([XZ]Y),
将其展开就是
Γ
X
a
=
E
(
X
Y
)
\Gamma_X\boldsymbol a={\rm E}(\boldsymbol XY)
ΓXa=E(XY)和
Γ
Z
b
=
E
(
Z
Y
)
\Gamma_Z \boldsymbol b={\rm E}(\boldsymbol ZY)
ΓZb=E(ZY)两个显然的结果。
性质5:设 Y ~ = b ′ X \tilde Y=\boldsymbol b'\boldsymbol X Y~=b′X是 X \boldsymbol X X的线性组合,则 Y ~ = L ( Y ∣ X ) \tilde Y=L(Y|\boldsymbol X) Y~=L(Y∣X)的充要条件是
E ( X j ( Y − Y ~ ) ) = 0 , 1 ≤ j ≤ n , {\rm E}(X_j(Y-\tilde Y))=0,\quad 1\le j\le n, E(Xj(Y−Y~))=0,1≤j≤n,
即 E [ X ( Y − Y ~ ) ] = 0 {\rm E}[\boldsymbol X(Y-\tilde Y)]=\boldsymbol 0 E[X(Y−Y~)]=0。
这个性质给出了 X \boldsymbol X X的线性组合是 Y Y Y的最佳线性预测的充要条件,简单来说,就是要求 X \boldsymbol X X的线性组合包含 Y Y Y可以用 X \boldsymbol X X表示的全部信息,以至于 Y Y Y扣掉 X \boldsymbol X X之后与 X \boldsymbol X X不再相关,也就是 X \boldsymbol X X不能再对 Y Y Y的预测起到任何作用。
充分性方面,如果
b
′
X
\boldsymbol b'\boldsymbol X
b′X是
Y
Y
Y的最佳线性预测,则预测方程成立,那么
E
(
X
(
Y
−
b
′
X
)
)
=
E
(
X
Y
)
−
E
(
X
⋅
X
′
b
)
=
E
(
X
Y
)
−
Γ
b
=
预
测
方
程
0
.
{\rm E}(\boldsymbol X(Y-\boldsymbol b'\boldsymbol X))={\rm E}(\boldsymbol XY)-{\rm E}(\boldsymbol X\cdot \boldsymbol X'\boldsymbol b)={\rm E}(\boldsymbol XY)-\Gamma \boldsymbol b\xlongequal{预测方程}\boldsymbol 0.
E(X(Y−b′X))=E(XY)−E(X⋅X′b)=E(XY)−Γb预测方程0.
必要性方面,如果
E
(
X
(
Y
−
b
′
X
)
)
=
0
{\rm E}(\boldsymbol X(Y-\boldsymbol b'\boldsymbol X))=\boldsymbol 0
E(X(Y−b′X))=0,那么显然有
E
(
X
Y
)
=
Γ
b
{\rm E}(\boldsymbol XY)=\Gamma\boldsymbol b
E(XY)=Γb,也就是预测方程成立。
性质6:均方误差的可展开性,即
E ( Y − L ( Y ∣ X ) ) 2 = E Y 2 − E [ L ( Y ∣ X ) ] 2 = E Y 2 − a ′ Γ a . {\rm E}(Y-L(Y|\boldsymbol X))^2={\rm E}Y^2-{\rm E}[L(Y|\boldsymbol X)]^2={\rm E}Y^2-\boldsymbol a'\Gamma\boldsymbol a. E(Y−L(Y∣X))2=EY2−E[L(Y∣X)]2=EY2−a′Γa.
这是一个重要的计算性质,由此还可以得到一个重要的不等式:
E
[
L
(
Y
∣
X
)
]
2
≤
E
Y
2
,
{\rm E}[L(Y|\boldsymbol X)]^2\le {\rm E}Y^2,
E[L(Y∣X)]2≤EY2,
因为均方误差非负。这表明对
Y
Y
Y的最佳线性预测方差总比
Y
Y
Y本身的方差小,也就是说最佳线性预测方差有上限。
性质7:如果 Y ^ = L ( Y ∣ X 1 , ⋯ , X n ) , Y ~ = L ( Y ∣ X 1 , ⋯ , X n − 1 ) \hat Y=L(Y|X_1,\cdots,X_n),\tilde Y=L(Y|X_1,\cdots,X_{n-1}) Y^=L(Y∣X1,⋯,Xn),Y~=L(Y∣X1,⋯,Xn−1),则有
L ( Y ^ ∣ X 1 , ⋯ , X n − 1 ) = Y ~ , E ( Y − Y ^ ) 2 ≤ E ( Y − Y ~ ) 2 . L(\hat Y|X_1,\cdots,X_{n-1})=\tilde Y,\\ {\rm E}(Y-\hat Y)^2\le {\rm E}(Y-\tilde Y)^2. L(Y^∣X1,⋯,Xn−1)=Y~,E(Y−Y^)2≤E(Y−Y~)2.
这条性质表明最佳线性预测是一致的,不会因为新加入的信息打乱原有的信息结构,同时随着信息增多,预测效果一定不会变差。
要证明
Y
~
=
L
(
Y
^
∣
X
1
,
⋯
,
X
n
−
1
)
\tilde Y=L(\hat Y|X_1,\cdots,X_{n-1})
Y~=L(Y^∣X1,⋯,Xn−1),只需要证明
X
1
,
⋯
,
X
n
−
1
X_1,\cdots,X_{n-1}
X1,⋯,Xn−1都与
Y
^
−
Y
~
\hat Y-\tilde Y
Y^−Y~正交即可。由于
Y
−
Y
~
Y-\tilde Y
Y−Y~和
Y
−
Y
^
Y-\hat Y
Y−Y^都与
X
1
,
⋯
,
X
n
−
1
X_1,\cdots,X_{n-1}
X1,⋯,Xn−1正交,所以
Y
^
−
Y
~
=
(
Y
−
Y
~
)
−
(
Y
−
Y
^
)
\hat Y-\tilde Y=(Y-\tilde Y)-(Y-\hat Y)
Y^−Y~=(Y−Y~)−(Y−Y^)
也与
X
1
,
⋯
,
X
n
−
1
X_1,\cdots,X_{n-1}
X1,⋯,Xn−1正交。
性质8:如果 X \boldsymbol X X是 m m m维向量, Y \boldsymbol Y Y是 n n n维向量且 X = A Y , Y = B X \boldsymbol X=A\boldsymbol Y,\boldsymbol Y=B\boldsymbol X X=AY,Y=BX,则
L ( Z ∣ X ) = L ( Z ∣ Y ) . L(Z|\boldsymbol X)=L(Z|\boldsymbol Y). L(Z∣X)=L(Z∣Y).
这里, X = A Y \boldsymbol X=A\boldsymbol Y X=AY和 Y = B X \boldsymbol Y=B\boldsymbol X Y=BX,代表 X , Y \boldsymbol X,\boldsymbol Y X,Y可以相互线性表示,是等价向量组,运用等价向量组预测同一个变量自然应该有相同的形式。
要证明,设
a
′
X
=
L
(
Z
∣
X
)
,
b
′
Y
=
L
(
Z
∣
Y
)
\boldsymbol a'\boldsymbol X=L(Z|\boldsymbol X),\boldsymbol b'\boldsymbol Y=L(Z|\boldsymbol Y)
a′X=L(Z∣X),b′Y=L(Z∣Y),则由
E
(
X
X
′
)
a
=
E
(
X
Z
)
{\rm E}(\boldsymbol X\boldsymbol X')\boldsymbol a={\rm E}(\boldsymbol XZ)
E(XX′)a=E(XZ),对
E
(
X
X
′
)
a
=
E
(
X
Z
)
{\rm E}(\boldsymbol X\boldsymbol X')\boldsymbol a={\rm E}(\boldsymbol XZ)
E(XX′)a=E(XZ)两边同时左乘
B
B
B,可以得到
E
(
Y
X
′
)
a
=
E
(
Y
Z
)
{\rm E}(\boldsymbol Y\boldsymbol X')\boldsymbol a={\rm E}(\boldsymbol YZ)
E(YX′)a=E(YZ)
而
X
=
A
Y
\boldsymbol X=A\boldsymbol Y
X=AY即
X
′
=
Y
′
A
′
\boldsymbol X'=\boldsymbol Y'A'
X′=Y′A′,所以
E
(
Y
Y
′
)
A
′
a
=
E
(
Y
Z
)
{\rm E}(\boldsymbol Y\boldsymbol Y')A'\boldsymbol a={\rm E}(\boldsymbol YZ)
E(YY′)A′a=E(YZ),即
L
(
Z
∣
Y
)
=
a
′
A
Y
=
a
′
X
=
L
(
Z
∣
X
)
.
L(Z|\boldsymbol Y)=\boldsymbol a'A\boldsymbol Y=\boldsymbol a'\boldsymbol X=L(Z|\boldsymbol X).
L(Z∣Y)=a′AY=a′X=L(Z∣X).
回顾总结
虽然本文不涉及时间序列,但它为时间序列的线性预测打下了基础。
-
最佳线性预测指的是,用 X = ( X 1 , ⋯ , X n ) \boldsymbol X=(X_1,\cdots,X_n) X=(X1,⋯,Xn)的线性函数 a ′ X \boldsymbol a'\boldsymbol X a′X对 Y Y Y进行预测,使得预测的均方误差最小,也就是 ∀ b ∈ R n \forall \boldsymbol b\in\R^n ∀b∈Rn,
E ( Y − a ′ X ) 2 ≤ E ( Y − b ′ X ) 2 . {\rm E}(Y-\boldsymbol a'\boldsymbol X)^2\le {\rm E}(Y-\boldsymbol b'\boldsymbol X)^2. E(Y−a′X)2≤E(Y−b′X)2. -
最佳线性预测的系数 a \boldsymbol a a是满足预测方程:
Γ a = E ( X Y ) \Gamma\boldsymbol a={\rm E}(\boldsymbol XY) Γa=E(XY)
的实数向量,这里 Γ \Gamma Γ是 X \boldsymbol X X的自协方差矩阵,且
E ( Y − L ( Y ∣ X ) ) 2 = E Y 2 − E [ L ( Y ∣ X ) ] 2 ≥ 0. {\rm E}(Y-L(Y|\boldsymbol X))^2={\rm E}Y^2-{\rm E}[L(Y|\boldsymbol X)]^2\ge 0. E(Y−L(Y∣X))2=EY2−E[L(Y∣X)]2≥0.
即 E [ L ( Y ∣ X ) ] 2 ≤ E Y 2 {\rm E}[L(Y|\boldsymbol X)]^2\le {\rm E}Y^2 E[L(Y∣X)]2≤EY2。 -
尽管 Γ \Gamma Γ不一定可逆,但预测方程一定有解,且 ∀ a \forall \boldsymbol a ∀a满足预测方程, a ′ X \boldsymbol a'\boldsymbol X a′X总是 a . s . {\rm a.s.} a.s.唯一。
-
最佳线性预测具有线性性,是一个算子。
-
最佳线性预测与相关性存在重要联系,实际上最佳线性预测 L ( Y ∣ X ) L(Y|\boldsymbol X) L(Y∣X)中涵盖了 Y Y Y所包含的 X \boldsymbol X X的全部信息,因而可以直观地得到以下结论:
E ( X Y ) = 0 ⇒ L ( Y ∣ X ) = 0 , E ( X Z ′ ) = O ⇒ L ( Y ∣ X , Z ) = L ( Y ∣ X ) + L ( Y ∣ Z ) , E [ X ( Y − L ( Y ∣ X ) ) ] = 0 . {\rm E}(\boldsymbol XY)=\boldsymbol 0\Rightarrow L(Y|\boldsymbol X)=0,\\ {\rm E}(\boldsymbol X\boldsymbol Z')=\boldsymbol O\Rightarrow L(Y|\boldsymbol X,\boldsymbol Z)=L(Y|\boldsymbol X)+L(Y|\boldsymbol Z),\\ {\rm E}[\boldsymbol X(Y-L(Y|\boldsymbol X))]=\boldsymbol 0. E(XY)=0⇒L(Y∣X)=0,E(XZ′)=O⇒L(Y∣X,Z)=L(Y∣X)+L(Y∣Z),E[X(Y−L(Y∣X))]=0.