1. 前文回顾
在上一篇文章中,我们讨论了如何对拟合的模型质量进行评判。(详情请见:【统计学习系列】多元线性回归模型(六)——模型拟合质量评判:拟合优度)。
当模型已经被拟合好,并且拟合优度也达到了预期,我们就可以进一步使用这一模型来进行样本外预测啦!在这一篇文章中,我们来看一看如何应用拟合好的模型来进行样本外预测吧~
首先,先给出总体模型的表达式:
y
0
=
x
0
T
β
+
ϵ
0
y_0 = \bm{x}_0^T \bm\beta + \epsilon_0
y0=x0Tβ+ϵ0
其中:x0 为样本外解释变量的样本值(已给定);
y0 为待预测被解释变量的真值;
β 为模型参数向量;
ϵ0 ~ N(0, σ2)为模型误差项。
2. 样本外点估计
基于OLS回归,我们已经得到了模型参数 β 的估计量 β^:
β
^
=
(
X
T
X
)
−
1
X
T
y
\bm{\hat\beta} = ( \bm{X}^T \bm{X} )^{-1} \bm{X}^T \bm{y}
β^=(XTX)−1XTy
因此,在给定一组新的输入变量(样本外变量)x0 的情况下,由模型给出的 y0 的预测值 y^0 有:
y
^
0
=
x
0
T
β
^
\hat{y}_0 = \bm{x}_0^T \bm{\hat{\beta}}
y^0=x0Tβ^
容易验证,y^0 是 E(y0) 的无偏估计量:
E [ y ^ 0 ] = E [ x 0 T β ^ ] = x 0 T ⋅ E [ β ^ ] = x 0 T β = E [ y 0 ] E[\hat{y}_0] = E[\bm{x}_0^T \bm{\hat\beta}] = \bm{x}_0^T \cdot E[ \bm{\hat\beta}] = \bm{x}_0^T \bm{\beta} = E[y_0] E[y^0]=E[x0Tβ^]=x0T⋅E[β^]=x0Tβ=E[y0]
3. 样本外区间估计
若想要得到 y0 的区间估计量,我们首先需要知道 y0 所满足的分布。从模型的表达式中我们容易看出,y0 是误差项 ϵ0 的 线性变换(Linear Transmission),因此,在模型假设成立的前提下,y0 也应满足正态分布。又因为正态分布由期望和方差两个指标决定,因此我们只需要计算 y0 的期望和方差即可得到 y0 的分布。
在第二章中,我们已经得到了 y0 的期望值,下面就让我们来计算 y0 的方差。
var ( y 0 ) = var ( y ^ 0 + ϵ 0 ) = var ( y ^ 0 ) + var ( ϵ 0 ) \text{var}(y_0) = \text{var}(\hat{y}_0 + \epsilon_0) = \text{var}(\hat{y}_0) +\text{var}(\epsilon_0) var(y0)=var(y^0+ϵ0)=var(y^0)+var(ϵ0)
而
var
(
y
^
0
)
=
cov
(
x
0
T
β
^
,
x
0
T
β
^
)
\text{var}(\hat{y}_0) = \text{cov} ( \bm{x}_0^T \bm{\hat{\beta}} , \bm{x}_0^T \bm{\hat{\beta}} )
var(y^0)=cov(x0Tβ^,x0Tβ^)
=
x
0
T
var
(
β
^
)
x
0
= \bm{x}_0^T \text{var} (\bm{\hat{\beta}} ) \bm{x}_0
=x0Tvar(β^)x0
=
[
x
0
T
(
X
T
X
)
−
1
x
0
]
σ
2
= [ \bm{x}_0^T ( \bm{X^TX} )^{-1} \bm{x}_0 ] \sigma^2
=[x0T(XTX)−1x0]σ2
因此,
var
(
y
0
)
=
[
x
0
T
(
X
T
X
)
−
1
x
0
+
1
]
σ
2
\text{var}(y_0) = [ \bm{x}_0^T ( \bm{X^TX} )^{-1} \bm{x}_0 + 1 ] \sigma^2
var(y0)=[x0T(XTX)−1x0+1]σ2
故:
y
0
∼
N
(
x
0
T
β
,
[
x
T
(
X
T
X
)
−
1
x
+
1
]
σ
2
)
y_0 \thicksim N( \bm{x}_0^T \bm{\beta} ,[ \bm{x}^T ( \bm{X^TX} )^{-1} \bm{x} + 1 ] \sigma^2)
y0∼N(x0Tβ,[xT(XTX)−1x+1]σ2)
然而,由于 y0 的期望项是关于总体参数 β 的函数,而 β 未知,因此需要利用样本估计值替代。考虑到 E[y^0 ] = E[y0],因此可以考虑 y0 - y^0 的分布:
E [ y 0 − y ^ 0 ] = 0 E[y_0 - \hat{y}_0] = 0 E[y0−y^0]=0
而
var
(
y
0
−
y
^
0
)
=
var
(
x
0
T
β
+
ϵ
0
−
x
0
T
β
^
)
\text{var} (y_0 - \hat{y}_0) = \text{var} (\bm{x}_0^T \bm{\beta} + \epsilon_0 - \bm{x}_0^T \bm{\hat\beta} )
var(y0−y^0)=var(x0Tβ+ϵ0−x0Tβ^)
=
var
(
ϵ
0
−
x
0
T
β
^
)
=
var
(
y
0
)
= \text{var} (\epsilon_0 - \bm{x}_0^T \bm{\hat\beta} ) = \text{var}(y_0)
=var(ϵ0−x0Tβ^)=var(y0)
至此,我们得到 y0 - y^0 满足:
y
0
−
y
^
0
1
+
x
T
(
X
T
X
)
−
1
x
⋅
σ
∼
N
(
0
,
1
)
\frac{y_0 - \hat{y}_0 } {\sqrt{ 1 + \bm{x}^T ( \bm{X^TX} )^{-1} \bm{x} } \cdot \sigma} \thicksim N( 0, 1)
1+xT(XTX)−1x⋅σy0−y^0∼N(0,1)
而又因为:
(
N
−
p
−
1
)
σ
^
O
L
S
2
σ
2
∼
χ
N
−
p
−
1
2
\frac {(N-p-1)\hat \sigma _{OLS}^2} {\sigma^2} \thicksim \chi^2_{N-p-1}
σ2(N−p−1)σ^OLS2∼χN−p−12
请参见:【统计学习系列】多元线性回归模型(三)——参数估计量的性质。
因此,
(
N
−
p
−
1
)
⋅
(
y
0
−
y
^
0
)
1
+
x
T
(
X
T
X
)
−
1
x
⋅
σ
÷
(
N
−
p
−
1
)
σ
^
O
L
S
2
σ
2
=
y
0
−
y
^
0
1
+
x
T
(
X
T
X
)
−
1
x
⋅
σ
^
∼
t
N
−
p
−
1
\frac{(N-p-1) \cdot (y_0 - \hat{y}_0 ) } {\sqrt{ 1 + \bm{x}^T ( \bm{X^TX} )^{-1} \bm{x} } \cdot \sigma} ÷ \frac {(N-p-1)\hat \sigma _{OLS}^2} {\sigma^2} \\ =\frac{y_0 - \hat{y}_0 } {\sqrt{ 1 + \bm{x}^T ( \bm{X^TX} )^{-1} \bm{x} } \cdot \hat\sigma } \thicksim t_{N-p-1}
1+xT(XTX)−1x⋅σ(N−p−1)⋅(y0−y^0)÷σ2(N−p−1)σ^OLS2=1+xT(XTX)−1x⋅σ^y0−y^0∼tN−p−1
定义 y0 的标准误(Standard Error, SE):
SE
(
y
0
)
=
1
+
x
T
(
X
T
X
)
−
1
x
⋅
σ
^
\text{SE}(y_0) = \sqrt{ 1 + \bm{x}^T ( \bm{X^TX} )^{-1} \bm{x} } \cdot \hat\sigma
SE(y0)=1+xT(XTX)−1x⋅σ^
在1 - α 的置信水平下,y0 有:
P
{
∣
y
0
−
y
^
0
SE
(
y
0
)
∣
≤
t
α
/
2
,
N
−
p
−
1
}
P \{ |\frac { y_0 - \hat{y}_{0} }{\text{SE}(y_0) }| \le t_{\alpha/2, N-p-1} \}
P{∣SE(y0)y0−y^0∣≤tα/2,N−p−1}
=
P
{
∣
y
0
−
y
^
0
∣
≤
t
α
/
2
,
N
−
p
−
1
⋅
SE
(
y
0
)
}
= P \{ |y_0 - \hat{y}_{0} | \le t_{\alpha/2, N-p-1} \cdot \text{SE}(y_0) \}
=P{∣y0−y^0∣≤tα/2,N−p−1⋅SE(y0)}
=
P
{
y
^
0
−
t
α
/
2
,
N
−
p
−
1
⋅
SE
(
y
0
)
}
≤
y
0
≤
y
^
0
+
t
α
/
2
,
N
−
p
−
1
⋅
SE
(
y
0
)
}
= P \{ \hat{y}_0 - t_{\alpha/2, N-p-1} \cdot \text{SE}(y_0) \} \le y_0 \le \hat{y}_0 + t_{\alpha/2, N-p-1} \cdot \text{SE}(y_0) \}
=P{y^0−tα/2,N−p−1⋅SE(y0)}≤y0≤y^0+tα/2,N−p−1⋅SE(y0)}
=
1
−
α
= 1 - \alpha
=1−α
因此,可以得到 y0 的置信度为 1 - α 的区间估计为:
[
y
^
0
−
t
α
/
2
,
N
−
p
−
1
⋅
σ
^
1
+
x
T
(
X
T
X
)
−
1
x
,
y
^
0
+
t
α
/
2
,
N
−
p
−
1
⋅
σ
^
1
+
x
T
(
X
T
X
)
−
1
x
]
[ \hat{y}_{0} - t_{\alpha/2, N-p-1} \cdot \hat \sigma \sqrt{1 + \bm{x}^T ( \bm{X^TX} )^{-1} \bm{x} } , \ \ \hat{y}_{0} + t_{\alpha/2, N-p-1} \cdot \hat \sigma \sqrt{1 + \bm{x}^T ( \bm{X^TX} )^{-1} \bm{x} } ]
[y^0−tα/2,N−p−1⋅σ^1+xT(XTX)−1x, y^0+tα/2,N−p−1⋅σ^1+xT(XTX)−1x]
写在最后
若想查阅本系列全部文章,请参见目录页:系列文章目录索引。
欢迎感兴趣的小伙伴来跟作者一起挑刺儿~ 包括但不限于语言上的、排版上的和内容上的不足和疏漏~ 一起进步呀!
有任何问题,欢迎在本文下方留言,或者将问题发送至勘误邮箱: mikeysun_bugfix@163.com
谢谢大家!
本文介绍了如何在多元线性回归模型中进行样本外预测。首先回顾了模型的拟合优度评判,然后详细阐述了样本外点估计的步骤,通过计算预测值的无偏估计量。接着探讨了样本外区间估计,包括期望值、方差的计算,最终给出了置信区间的构建方法。
3万+

被折叠的 条评论
为什么被折叠?



