Fisher信息量
Fisher信息量的定义在之前的博客中详细介绍了,定义是:
I(θ)=−Eθ[∂2f(x;θ)∂θ2]=−∫x∂2f(x;θ)∂θ2f(x;θ)dxI(\theta)=-E_{\theta}[\frac{\partial ^2 f(x;\theta)}{\partial \theta^2}]=-\int_{x}\frac{\partial ^2f(x;\theta)}{\partial \theta^2}f(x;\theta)dxI(θ)=−Eθ[∂θ2∂2f(x;θ)]=−∫x∂θ2∂2f(x;θ)f(x;θ)dx
最大似然估计量的渐进分布的方差由Fisher信息量的倒数给出:
θ^=N(θ,1I(θ))\hat{\theta}=N(\theta, \frac{1}{I(\theta)})θ^=N(θ,I(θ)1)其中,θ\thetaθ是参数真值。由于真值不得而知,因此只能用plug-in形式的Fisher信息量:I(θ^)I(\hat{\theta})I(θ^)
Fisher观测信息量
Fisher包括后来的一些统计学家如斯坦福的Efron认为Fisher观测信息比plug-in的Fisher信息量更加能够反映估计值θ^\hat{\theta}θ^的准确性。
观测Fisher信息定义为:
I(x)=−∂2f(x;θ)∂θ2∣θ=θ^I(x)=-\frac{\partial ^2 f(x;\theta)}{\partial \theta ^2}|_{\theta = \hat{\theta}}I(x)=−∂θ2∂2f(x;θ)∣θ=θ^
这里自变量换成xxx是因为利用数据获得了一个具体取值,也就是说θ^=g(x)\hat{\theta}=g(x)θ^=g(x)这很好理解,首先求取似然函数负二阶导数,然后利用数据xxx估计一个θ^\hat{\theta}θ^,然后带入到负二阶导数的表达式里面去。估计值的分布变成了N(θ,1I(x))N(\theta, \frac{1}{I(x)})N(θ,I(x)1)