【本文内容摘自"Signals, Systems and Inferences"之"8.2-From Estimate to an Estimator", by Alan V.Oppenheim and George C.Verghese, 2010.】
上面我们得到对于特定的X=xX=xX=x,有
y^(x)=E[Y∣X=x].\hat y(x)={\rm E}\left[Y|X=x\right].y^(x)=E[Y∣X=x].
然而,尽管XXX是随机变量,但其取值xxx不是,因此y^(x)\hat y(x)y^(x)也不是。
在我们进入更深入的讨论时,我们有必要在估计随机变量和实现估计的步骤间划分出界限。这就好像对于函数的取值和函数本身进行区分。我们把产生估计的过程或者函数称为估计器(estimator)。
我们用y^(X)\hat y(X)y^(X)来表示MMSE估计器,即
Y^=y^(X)=E[Y∣X].
\hat Y=\hat y({\bf X})={\rm E}[Y|{\bf X}].
Y^=y^(X)=E[Y∣X].
注意这里E[Y∣X]{\rm E}[Y|{\bf X}]E[Y∣X]表示一个随机变量,而非一个数值。
给定X{\bf X}X时对Y的MMSE估计器将最小化MSE,这是由于MMSE估计器对于每个特定的值xxx,都最小化MSE,即
EY,X([Y−y^(X)]2)=EX{EY,X([Y−y^(X)]2∣X)}=∫−∞∞EY,X([Y−y^(X)]2∣X=x)fX(x)dx.
{\rm E}_{Y,{\bf X}}\left( [Y-\hat y({\bf X})]^2\right)={\rm E}_{{\rm X}}\left\{{\rm E}_{Y,{\bf X}}\left( [Y-\hat y({\bf X})]^2|{\bf X}\right)\right\}\\
=\int_{-\infty}^{\infty}{\rm E}_{Y,{\bf X}}\left( [Y-\hat y({\bf X})]^2|{\bf X=x}\right)f_{\bf X}({\bf x})d{\bf x}.
EY,X([Y−y^(X)]2)=EX{EY,X([Y−y^(X)]2∣X)}=∫−∞∞EY,X([Y−y^(X)]2∣X=x)fX(x)dx.
由于估计y^(x)\hat y({\bf x})y^(x)对于XXX的每个值都能够最小化EY∣X{\rm E}_{Y|{\bf X}}EY∣X,因此也能够最小化EX{\rm E}_{\bf X}EX,因为fX(x)f_{\bf X}({\bf x})fX(x)非负。
正交性
MMSE估计器的另外一个重要特性时残留误差Y−y^(X)Y-\hat y({\rm X})Y−y^(X)与测量的随机变量的任意函数h(X)h({\bf X})h(X)正交,即
EY,X{[Y−y^(X)]h(X)}=0.(1) {\rm E}_{Y,X}\{[Y-\hat y ({\bf X)}]h({\bf X})\}=0.\qquad \qquad (1)EY,X{[Y−y^(X)]h(X)}=0.(1)
因此
EY,X{y^(X)h(X)}=EY,X{Yh(X)}.(2) {\rm E}_{Y,X}\{\hat y ({\bf X)}h({\bf X})\}={\rm E}_{Y,X}\{Yh({\bf X})\}.\qquad \qquad (2)EY,X{y^(X)h(X)}=EY,X{Yh(X)}.(2)
特别地,选择h(X)=1h({\bf X})=1h(X)=1,有
EY,X{y^(X)}=EY{Y}. {\rm E}_{Y,X}\{\hat y ({\bf X)}\}={\rm E}_{Y}\{Y\}.EY,X{y^(X)}=EY{Y}.
因此,估计器被称为无偏的(unbiased):它的期望值等于估计的随机变量的期望值。我们可以用无偏性来理解(1),即MMSE估计器的估计误差与用来构造估计器的随机变量的任意函数都是无关的。
(2)的证明如下
EY,X{y^(X)h(X)}=EX[EY∣X(Y∣X)h(X)}=EX[EY∣X[Yh(X)∣X}=EY,X{Yh(X)} {\rm E}_{Y,X}\{\hat y({\bf X})h({\bf X})\}={\rm E}_{X}[ {\rm E}_{Y|X}(Y|{\bf X})h({\bf X})\}\\={\rm E}_{X}[ {\rm E}_{Y|X}[Yh({\bf X})|{\bf X}\}={\rm E}_{Y,X}\{Yh({\bf X})\}EY,X{y^(X)h(X)}=EX[EY∣X(Y∣X)h(X)}=EX[EY∣X[Yh(X)∣X}=EY,X{Yh(X)}
由此可以得到(1)中的正交性。