在学习概率论的"参数估计"一章时有一些概念没能理解清楚,尤其是参数估计量的性质。在反复翻书的过程中总算搞清楚了一些,在这里记录一下我的理解
无偏性
一般书上讲到的第一个性质就是这个,初看很让人头大,如果不弄清楚的话对于后续内容的理解是很大的阻碍
按照书上(浙大概率论)的定义,无偏性是指:
设 X1,X2,...,XnX_1, X_2, ..., X_nX1,X2,...,Xn 是总体XXX的一个样本,θ∈Θ\theta\in\Thetaθ∈Θ是包含在总体XXX的分布中的待估参数,其中 Θ\ThetaΘ 是θ\thetaθ的取值范围
若估计量θ^=θ^(X1,X2,...,Xn)\hat{\theta}=\hat{\theta}(X_1, X_2, ..., X_n)θ^=θ^(X1,X2,...,Xn)的数学期望E(θ^)E(\hat\theta)E(θ^)存在,且对于任意θ∈Θ\theta\in\Thetaθ∈Θ有
E(θ^)=θE(\hat\theta)=\thetaE(θ^)=θ
则称θ^\hat\thetaθ^是θ\thetaθ的一个无偏估计量
这个定义初看的话是很难理解的(至少对我来说),因为很难理解这个θ^\hat\thetaθ^到底指的是什么,θ^=θ^(X1,X2,...,Xn)\hat{\theta}=\hat{\theta}(X_1, X_2, ..., X_n)θ^=θ^(X1,X2,...,Xn) 这个等式也是有点捉摸不透
其实定义里已经提到, θ^\hat{\theta}θ^是一个估计量,更为具体的,是对样本的估计量。参数估计目的就是利用样本的估计量去估计真值,一个典型的例子就是用样本的均值去估计真正的均值。
所以参数的点估计(与之对应的还有区间估计)指的就是,取nnn个样本,对这nnn个样本进行某种运算(比如: 取均值,这个运算就是θ^\hat\thetaθ^)可以得到一个估计值,用这个估计值去估算真值(这个真值就是θ\thetaθ)。但是我们知道,只取nnn个样本存在随机性,估计出来的真值很可能是不准确的,所以我们再进行多次取样,如果这多次取样运算的均值与真值θ\thetaθ相等,那么这个运算θ^\hat\thetaθ^就是无偏的
那么按照这样的理解去解释估计量的其他性质:
- 有效性: 对于按不同的估算量θ^1,θ^2\hat\theta_1, \hat\theta_2θ^1,θ^2进行多次取样运算,可以得到两组值,方差较小者对应的θ^\hat\thetaθ^称为更有效
- 相合性: 相合性指的是随着样本容量增大(nnn趋于正无穷时),估计量θ^\hat\thetaθ^稳定于真值θ\thetaθ, 也即θ^(X1,X2,...,Xn)\hat\theta(X_1, X_2, ..., X_n)θ^(X1,X2,...,Xn)依概率收敛于θ\thetaθ
以上只是我的个人理解,如有错误,欢迎指出