1 CEF error的有限性问题
在回归中,记条件期望函数(conditional expectation function,CEF)为E[Y∣X=x]E[Y|X=x]E[Y∣X=x],则可将因变量YYY分解为
Y=E[Y∣X=x]+e
Y=E[Y|X=x]+e
Y=E[Y∣X=x]+e
可记e=Y−E[Y∣X=x]e=Y-E[Y|X=x]e=Y−E[Y∣X=x]为条件期望函数误差(CEF error)。
显然,eee满足E[e∣X]=0E[e|X]=0E[e∣X]=0,E[e]=0E[e]=0E[e]=0,这些都很容易证明。下面来看一个关于eee的有限性的问题:
若对于r>1r\gt 1r>1有E[∣Y∣r]<∞E[|Y|^r]\lt \inftyE[∣Y∣r]<∞,求证E[∣e∣r]<∞E[|e|^r]\lt \inftyE[∣e∣r]<∞。
从直觉上说,eee是用条件期望函数对YYY做了解释后留下的残差,那么YYY的有限性应该可以保证eee的有限性。但要证明它,却比较复杂。
2 证明
首先我们利用Minkowski不等式,有
(E[∣e∣r])1/r=(E[∣Y−E[Y∣X=x]∣r])1/r≤(E[∣Y∣r])1/r+(E[∣E[Y∣X=x]∣r])1/r
\begin{aligned}
&\left(E[|e|^r] \right)^{1/r}\\
=& \left(E\left[|Y-E[Y|X=x]|^r\right]\right)^{1/r}\\
\leq& \left(E\left[|Y|^r\right]\right)^{1/r}+\left(E\left[|E[Y|X=x]|^r\right]\right)^{1/r}
\end{aligned}
=≤(E[∣e∣r])1/r(E[∣Y−E[Y∣X=x]∣r])1/r(E[∣Y∣r])1/r+(E[∣E[Y∣X=x]∣r])1/r
由已知条件,第一项(E[∣Y∣r])1/r\left(E\left[|Y|^r\right]\right)^{1/r}(E[∣Y∣r])1/r是有限的。
对于第二项,由于g(⋅)=∣⋅∣rg(\cdot)=|\cdot|^rg(⋅)=∣⋅∣r在r≥1r\geq 1r≥1时为凸函数,由Jensen不等式g(E[Y∣X])≤E[g(Y)∣X]g(E[Y|X]) \leq E[g(Y)|X]g(E[Y∣X])≤E[g(Y)∣X],即有
∣E[Y∣X]∣r≤E[∣Y∣r∣X]
|E[Y|X]|^r \leq E[|Y|^r|X]
∣E[Y∣X]∣r≤E[∣Y∣r∣X]
再对两边取期望后取1/r1/r1/r次幂,可得
(E[∣E[Y∣X]∣r])1/r≤(E[∣Y∣r])1/r
\left(E\left[|E[Y|X]|^r \right]\right)^{1/r}\leq \left(E[|Y|^r]\right)^{1/r}
(E[∣E[Y∣X]∣r])1/r≤(E[∣Y∣r])1/r
由已知条件可知,这一项也是有限的。
3 扩展
若我们关注r=2r=2r=2,就变成了CEF error的无条件方差σ2=E[e2]=Var[e]\sigma^2=E[e^2]=\text{Var}[e]σ2=E[e2]=Var[e]。结论重新表述如下:
若E[Y2]<∞E[Y^2]\lt \inftyE[Y2]<∞,则σ2<∞\sigma^2\lt \inftyσ2<∞。
事实上,若对于多个解释变量,则不断加入解释变量后,残差的方差必将减小,即若E[Y2]<∞E[Y^2]\lt \inftyE[Y2]<∞,必有
Var[Y]≥Var[Y−E[Y∣X1]]≥Var[Y−E[Y∣X1,X2]]
\text{Var}[Y]\geq \text{Var}[Y-E[Y|X_1]] \geq \text{Var}[Y-E[Y|X_1,X_2]]
Var[Y]≥Var[Y−E[Y∣X1]]≥Var[Y−E[Y∣X1,X2]]
为什么?
证明:先利用E[Y∣X1]=E[E[Y∣X1,X2]∣X1]E[Y|X_1]=E[E[Y|X_1,X_2]|X_1]E[Y∣X1]=E[E[Y∣X1,X2]∣X1]和Jensen不等式,我们可以得到
(E[Y∣X1])2=(E[E[Y∣X1,X2]∣X1])2≤E[(E[Y∣X1,X2])2∣X1]
\left(E[Y|X_1]\right)^2=(E[E[Y|X_1,X_2]|X_1])^2\leq E[\left(E[Y|X_1,X_2]\right)^2|X_1]
(E[Y∣X1])2=(E[E[Y∣X1,X2]∣X1])2≤E[(E[Y∣X1,X2])2∣X1]
两边取期望后有
E[(E[Y∣X1])2]≤E[(E[Y∣X1,X2])2]
E\left[\left(E[Y|X_1]\right)^2\right] \leq E\left[\left(E[Y|X_1,X_2]\right)^2\right]
E[(E[Y∣X1])2]≤E[(E[Y∣X1,X2])2]
同理,利用E[Y]=E[E[Y∣X1]]E[Y]=E[E[Y|X_1]]E[Y]=E[E[Y∣X1]]和Jensen不等式,可得到(E[Y])2≤E[(E[Y∣X1])2](E[Y])^2\leq E\left[\left(E[Y|X_1]\right)^2\right](E[Y])2≤E[(E[Y∣X1])2],与上面的式子放在一起有
(E[Y])2≤E[(E[Y∣X1])2]≤E[(E[Y∣X1,X2])2]
(E[Y])^2\leq E\left[\left(E[Y|X_1]\right)^2\right] \leq E\left[\left(E[Y|X_1,X_2]\right)^2\right]
(E[Y])2≤E[(E[Y∣X1])2]≤E[(E[Y∣X1,X2])2]
三个地方都同时减去(E[Y])2(E[Y])^2(E[Y])2,可得
0≤Var[E[Y∣X1]]≤Var[E[Y∣X1,X2]]
0 \leq \text{Var}\left[E[Y|X_1]\right] \leq \text{Var}\left[E[Y|X_1,X_2]\right]
0≤Var[E[Y∣X1]]≤Var[E[Y∣X1,X2]]
另一方面,我们已有e=Y−E[Y∣X]e=Y-E[Y|X]e=Y−E[Y∣X],再记u=E[Y∣X]−E[Y]u=E[Y|X]-E[Y]u=E[Y∣X]−E[Y],则E[eu]=0E[eu]=0E[eu]=0,因此
Var[Y]=Var[e+u]=Var[e]+Var[u]=Var[Y−E[Y∣X]]+Var[E[Y∣X]]
\begin{aligned}
&\text{Var}[Y]\\
=& \text{Var}[e+u]\\
=& \text{Var}[e]+\text{Var}[u]\\
=& \text{Var}[Y-E[Y|X]]+\text{Var}[E[Y|X]]
\end{aligned}
===Var[Y]Var[e+u]Var[e]+Var[u]Var[Y−E[Y∣X]]+Var[E[Y∣X]]
而Var[Y]\text{Var}[Y]Var[Y]为常数,因此,Var[E[Y∣X]]\text{Var}[E[Y|X]]Var[E[Y∣X]]越大,Var[Y−E[Y∣X]]\text{Var}[Y-E[Y|X]]Var[Y−E[Y∣X]]越小,即
Var[Y]≥Var[Y−E[Y∣X1]]≥Var[Y−E[Y∣X1,X2]]
\text{Var}[Y]\geq \text{Var}[Y-E[Y|X_1]] \geq \text{Var}[Y-E[Y|X_1,X_2]]
Var[Y]≥Var[Y−E[Y∣X1]]≥Var[Y−E[Y∣X1,X2]]