本篇博文我们将正式地陈述一系列随机变量靠近某个随机变量。
定义1:{Xn}是一系列随机变量,X是定义在样本空间上的随机变量。我们说
或者等价的
如果成立,我们一般写成
如果Xn→PX,我们常说Xn−X的差收敛到0。极限随机变量X经常是一个常数;例如
说明依概率收敛的一种方法是用切比雪夫定理,具体会在下面的证明中给出,为了强调我们是一系列随机变量,我们在随机变量上给出下标,像X¯写成X¯n。
定理1:(弱大数定理){Xn}是一系列独立同分布的随机变量,均值为μ,方差为σ2<∞,X¯n=n−1∑ni=1Xi,那么
证明:回忆一下X¯n的均值与方差分别为μ,σ2/n,因此根据切比雪夫定理,对于任意的ϵ>0
||
这个定理说明,当n取向
还有一个强大数定理,它弱化了定理1的假设:随机变量Xi独立且都有有限的均值μ,因此强大数定理是一阶矩定理,而弱大数定理需要二阶矩存在。
还有些关于依概率收敛的定理,我们在后面会用到,首先是两个关于依概率收敛对线性封闭的定理。
定理2:假设Xn→PX,Yn→PY,那么Xn+Yn→PX+Y。
证明:ϵ>0已给定,利用三角不等式可得
因为P是单调的,所以我们有
根据定理的假设,后两项收敛到0,从而得证。||
定理3:假设Xn→PX且a是一个常数,那么
证明:如果a=0,结论明显成立。假设a≠0,令ϵ>0,那么
根据假设最后一项趋于0。||
定理4:假设Xn→Pa且函数g在
证明:令ϵ>0,那么因为g在
代入Xn可得
根据假设,最后一项在n→∞时趋于0,得证。||
这个定理给出了许多有用的结论。例如,如果Xn→Pa,那么
实际上,如果Xn→PX且g是连续函数,那么
定理5:假设Xn→PX,Yn→PY,那么XnYn→PXY。
证明:利用上面的结论,我们有
现在回到采样与统计的讨论,考虑这么一种情况,随机变量X的分布有未知参数
定义2:X是cdf为
如果X1,…,Xn是有限均值μ和方差σ2分布的随机样本,那么根据弱大数定理,样本均值X¯是μ的一致估计。
例1:X1,…,Xn表示均值为μ方差为σ2分布的随机样本,定理1说明X¯→Pμ。为了说明样本均值依概率收敛到σ2,假设E[X41]<∞,这样的话var(S2)<∞。根据前面的结论可得:
因此样本方差是σ2的一致估计。
不像上面的例子,有时候我们可以用分布函数得出收敛,如下例所示:
例2:X1,…,Xn是均匀分布(0,θ)的随机样本,Yn=max{X1,…,Xn},从Yn的cdf中很容易看出Yn→Pθ且样本最大值是θ的一致估计。注意无偏估计((n+1)/n)Yn也是一致的。
接下里扩展下例2,根据定理1可得X¯n是θ/2的一致估计,所以2X¯n是θ的一致估计,注意Yn,2X¯n依概率收敛到θ的区别。对Yn而言我们用的是Yn的cdf,但对2X¯n而言,我们用的是弱大数定理。事实上2X¯n的cdf非常复杂。在许多情况下,统计量的cdf无法得到但是我们可以用近似理论来建立结论。其实还有许多其他θ的估计量,那么哪个是最好的呢?后面的文章会继续介绍。
一致性是估计量非常重要的性质,当样本数量增大时差的估计量不可能靠近目标。注意这对无偏性是不成立的。例如我们不用样本方差来估计σ2,假设用V=n−1∑ni=1(Xi−X¯)2,那么V是