充分统计量
充分统计量的一种定义是:数据为XnX^nXn,如果给定充分统计量的一组取值T(Xn=xn)=tT(X^n=x^n)=tT(Xn=xn)=t,能够使得数据的分布不依赖于参数θ\thetaθ,则TTT是充分统计量。
粗略的说,如果已经知道T(xn)T(x^n)T(xn)就可以计算似然函数,则该统计量是充分的。
例子
X=(X1,X2)∼Bernoulli(p)X=(X_1, X_2) \sim Bernoulli(p)X=(X1,X2)∼Bernoulli(p),充分统计量是T=X1+X2T=X_1+X_2T=X1+X2。原因是给定任意T的取值,都可以知道数据的分布,而不依赖于参数ppp。
T=0T=0T=0时,两个数据取0的概率为1,其他为0。T=1T=1T=1,时,两者取1另一个取0的概率各自为0.5,其他情况为0。当T=2T=2T=2时,两者取1的概率为1,其他情况为0。
倘若统计量T=X1T=X_1T=X1,则不是充分统计量。例如当T=0T=0T=0时,只知道X1X_1X1取1的概率为0,而X2X_2X2取1的概率是参数ppp。
因子分解定理
TTT是充分统计量当且仅当存在g(t,θ)g(t,\theta)g(t,θ)和h(x)h(x)h(x)使得:f(xn;θ)=g(t(xn),θ)h(xn)f(x^n;\theta)=g(t(x^n),\theta)h(x^n)f(xn;θ)=g(t(xn),θ)h(xn).
将此定理应用于上面的例子,首先把似然函数写出来:
f(X;θ)=f(x1;θ)f(x2;θ)=θx1+x2(1−θ)2−x1−x2
\begin{aligned}
f(X;\theta)&=f(x_1;\theta)f(x_2;\theta)\\
&=\theta^{x_1+x_2}(1-\theta)^{2-x_1 - x_2}
\end{aligned}
f(X;θ)=f(x1;θ)f(x2;θ)=θx1+x2(1−θ)2−x1−x2令统计量T=X1+X2T=X_1+X_2T=X1+X2,则成为f(X;θ)=θt(1−θ)2−tf(X;\theta)=\theta^{t}(1-\theta)^{2-t}f(X;θ)=θt(1−θ)2−t此时,g(t(xn),θ)=θt(1−θ)2−tg(t(x^n),\theta)=\theta^{t}(1-\theta)^{2-t}g(t(xn),θ)=θt(1−θ)2−t而h(x)=1h(x)=1h(x)=1。因此,TTT是充分统计量。
Rao-Blackwell定理
这个定理指出,一个估计应该依赖于充分统计量,否则从MSE的角度上可以被改进。
令θ^\hat{\theta}θ^为估计,TTT为充分统计量。定义估计
θnew=E[θ^∣T]\theta_{new}=E[\hat{\theta}|T]θnew=E[θ^∣T]则对任意θ\thetaθ,有R(θ,θn)≤R(θ,θ^)R(\theta,\theta_n) \le R(\theta, \hat{\theta})R(θ,θn)≤R(θ,θ^).
应用于抛两枚硬币的问题,首先假设θ^=X1\hat{\theta}=X_1θ^=X1,E[X1]=pE[X_1]=pE[X1]=p是一个无偏估计。定义充分统计量T=X1+X2T=X_1+X_2T=X1+X2,则由Rao-Blackwell定理就可以得到:
θn=E[θ^∣T]=0×P(X=0∣T=t)+1×P(X=1∣T=t)=P(X1=1∣T=t)=P(X1=1,T=t)P(T=t)=P(X1=1,X2=t−1)P(T=t)=P(X1=1)P(X2=t−1)P(X1+X2=t)=p⋅C1t−1pt−1(1−p)1−(t−1)C2tpt(1−p)2−t=C1t−1C2t=t2=X1+X22
\begin{aligned}
\theta_n&=E[\hat{\theta}|T]=0\times P(X=0|T=t)+1\times P(X=1|T=t)\\
&=P(X_1=1|T=t)\\
&=\frac{P(X_1=1,T=t)}{P(T=t)}\\
&=\frac{P(X_1=1,X_2=t-1)}{P(T=t)}=\frac{P(X_1=1)P(X_2=t-1)}{P(X_1+X_2=t)}\\
&=\frac{p \cdot C_{1}^{t-1}p^{t-1}(1-p)^{1-(t-1)}}{C_{2}^{t}p^{t}(1-p)^{2-t}}\\
&=\frac{C_{1}^{t-1}}{C_{2}^{t}}=\frac{t}{2}=\frac{X_1+X_2}{2}
\end{aligned}
θn=E[θ^∣T]=0×P(X=0∣T=t)+1×P(X=1∣T=t)=P(X1=1∣T=t)=P(T=t)P(X1=1,T=t)=P(T=t)P(X1=1,X2=t−1)=P(X1+X2=t)P(X1=1)P(X2=t−1)=C2tpt(1−p)2−tp⋅C1t−1pt−1(1−p)1−(t−1)=C2tC1t−1=2t=2X1+X2得到了一个估计θn=X1+X22\theta_n=\frac{X_1+X_2}{2}θn=2X1+X2,其MSE会比θ^=X1\hat{\theta}=X_1θ^=X1更小。