【本文内容摘自"Signals, Systems and Inferences"之"8.1-Estimation of a Continuous Random Variable", by Alan V.Oppenheim and George C.Verghese, 2010.】
连续随机变量的MMSE估计
首先,我们假定对随机变量YYY感兴趣想要估计它的值,但我们只知道它的概率密度函数(PDF)。随后,我们把讨论扩展到我们知道另外一个随机变量XXX的测量或者观察结果,也知道XXX和YYY的联合概率密度函数的情况。
- 只有YYY的PDF可知的情况
-
E{(Y−y^)2}=∫(y−y^)2pY(y)dy{\rm E}\left\{ (Y-\hat{y})^2 \right\}=\int(y-\hat{y})^2p_Y(y)dy E{(Y−y^)2}=∫(y−y^)2pY(y)dy
-
将上式对y^\hat yy^求导且令导数等于零,可以得到
−2∫(y−y^)pY(y)dy=0(1)-2\int(y-\hat{y})p_Y(y)dy=0 \qquad \qquad (1)−2∫(y−y^)pY(y)dy=0(1)
或者
∫y^pY(y)dy=∫ypY(y)dy \int \hat yp_{Y}(y)dy=\int yp_{Y}(y)dy∫y^pY(y)dy=∫ypY(y)dy
因此,
y^=E{y}.(2) \hat y={\rm E}\{y\}. \qquad \qquad(2)y^=E{y}.(2) -
E{(Y−y^)2}{\rm E}\left\{ (Y-\hat{y})^2 \right\}E{(Y−y^)2}关于y^\hat yy^的二次导数为
2∫pY(y)dy=2 2\int p_{Y}(y)dy=2 2∫pY(y)dy=2
结果为正,因此(2)给出了最小化MSE时的y^\hat yy^值。显然,(1)中的MMSE就是YYY的方差,即
minE{(Y−y^)2}=E{(Y−E{Y})2}=σY2 \min {\rm E}\left\{ (Y-\hat{y})^2 \right\}={\rm E}\left\{ (Y-{\rm E}\{Y\})^2 \right\}=\sigma_Y^2 minE{(Y−y^)2}=E{(Y−E{Y})2}=σY2
- 与YYY有关随机变量X的测量值或观察值可知的情况
由于有了关于XXX的额外的测量,我们用后验概率密度函数pY∣X(y∣x)p_{Y|X}(y|x)pY∣X(y∣x)代替pY(y)p_Y(y)pY(y)。
因此,我们的目标是最小化(3)式
E[{Y−y^(x)}2∣X=x]=∫{y−y^(x)}2pY∣X(y∣x)dy(3) {\rm E}[\{ Y-\hat{y}(x)\}^2|X=x ]=\int\{y-\hat{y}(x)\}^2p_{Y|X}(y|x)dy \qquad \qquad (3)E[{Y−y^(x)}2∣X=x]=∫{y−y^(x)}2pY∣X(y∣x)dy(3)
这里为我们的估计引入了y^(x)\hat y(x)y^(x),从而表明通常来说它将依赖于特定的xxx值。与无测量的情况时候相同,我们可以得到
y^(x)=E[Y∣X=x] \hat y(x)={\rm E}[Y|X=x] y^(x)=E[Y∣X=x]
与之相关的MMSE为条件方差σY∣X2\sigma_{Y|X}^2σY∣X2。因而与无测量时候的唯一区别在于,我们现在将测量值作为条件。
再进一步,如果我们有多个测量值,X1=x1,X2=x2,…,XL=xLX_1=x_1, X_2=x_2, \ldots, X_L=x_LX1=x1,X2=x2,…,XL=xL,我们采用后验概率密度
PY∣X1,X2,…,XL(y∣x1,x2,…,xL) P_{Y|X_1,X_2,\ldots,X_L}(y| x_1,x_2,\ldots,x_L) PY∣X1,X2,…,XL(y∣x1,x2,…,xL)
【结论】
y^(x)=∫ypY∣X(y∣X=x)=E[Y∣X=x \hat y(x)=\int yp_{Y|{\bf X} }(y| {\bf X}={\bf x})={\rm E}[Y| {\bf X}={\bf x} y^(x)=∫ypY∣X(y∣X=x)=E[Y∣X=x
其对应的MMSE为条件方差σY∣X2\sigma_{Y|{\bf X}}^2σY∣X2。
例:二元高斯随机变量的MMSE估计
两个随机变量XXX和YYY被称为具有二元高斯联合PDF,如果对其归一化之后得到随机变量
V=X−μxσX, W=Y−μYσYV=\frac{X-\mu_x}{\sigma_X},\ W=\frac{Y-\mu_Y}{\sigma_Y}V=σXX−μx, W=σYY−μY
满足
pV,W(v,w)=12π1−ρ2exp{−v2−2ρvw+w22(1−ρ2)} p_{V,W}(v,w)=\frac{1}{2\pi \sqrt{1-\rho^2}}\exp \{-\frac{v^2-2\rho v w+w^2}{2(1-\rho^2)}\}pV,W(v,w)=2π1−ρ21exp{−2(1−ρ2)v2−2ρvw+w2}
其中ρ=σXYσXσY\rho=\frac{\sigma_{XY}}{\sigma_X\sigma_Y}ρ=σXσYσXY为XXX、YYY的相关系数,而CXY=E[XY]−μXμYC_{XY}={\rm E}[XY]-\mu_X\mu_YCXY=E[XY]−μXμY为XXX、YYY的协方差。
下面考虑给定X=xX=xX=x时YYY的MMSE估计,即y^(x)\hat y(x)y^(x),可以得到
y^(x)=E[Y∣X=x] \hat y(x)={\rm E}[Y|X=x]y^(x)=E[Y∣X=x]
或者
y^(x)=E{(σYW+μY)∣V=x−μXσX}=σYE{W∣V=x−μxσX}+μY.\hat y(x)={\rm E}\left\{(\sigma_YW+\mu_Y)|V=\frac{x-\mu_X}{\sigma_X}\right\}=\sigma_Y{\rm E}\left\{W|V=\frac{x-\mu_x}{\sigma_X} \right\}+\mu_Y .y^(x)=E{(σYW+μY)∣V=σXx−μX}=σYE{W∣V=σXx−μx}+μY.
由于
pW∣V(w∣v)=12π(1−p2)exp{−(w−ρv)22(1−ρ2)}.p_{W|V}(w|v)=\frac{1}{\sqrt{2\pi(1-p^2)}}\exp\left\{-\frac{(w-\rho v)^2}{2(1-\rho^2)}\right\}.pW∣V(w∣v)=2π(1−p2)1exp{−2(1−ρ2)(w−ρv)2}.
即均值为ρv\rho vρv,因此
y^(x)=μY+σYρv=μY+ρσYσX(x−μX).\hat y(x)=\mu_Y+\sigma_Y \rho v =\mu_Y+\rho\frac{\sigma_Y}{\sigma_X}(x-\mu_X).y^(x)=μY+σYρv=μY+ρσXσY(x−μX).
我们来看此时的最小MSE,即
E{[Y−y^(x)]2∣X=x} {\rm E}\{[Y-\hat y(x)]^2|{\bf X}=x\} E{[Y−y^(x)]2∣X=x}
为pY∣X(y∣X=x)p_{Y|{\bf X}}(y|{\bf X}=x)pY∣X(y∣X=x)的方差,又由于pY∣X(y∣X=x)=σYpW∣V(w∣V=v)p_{Y|{\bf X}}(y|{\bf X}=x)=\sigma_Y p_{W|{\bf V}}(w|{\bf V}=v)pY∣X(y∣X=x)=σYpW∣V(w∣V=v)且pW∣V(w∣V=v)p_{W|{\bf V}}(w|{\bf V}=v)pW∣V(w∣V=v)的方差为1−ρ21-\rho^21−ρ2,因此
E{[Y−y^(x)]2∣X=x}=σY2(1−ρ2). {\rm E}\{[Y-\hat y(x)]^2|{\bf X}=x\}=\sigma^2_Y(1-\rho^2). E{[Y−y^(x)]2∣X=x}=σY2(1−ρ2).