参数估计
在数理统计中,我们见到的总体X一般都是未知的。
即便根据以往的经验和数据,知道X服从哪类分布,,其数字特征(数学期望,方差,矩)也是未知的。
这些未知的数字特征以及含在总体X中的未知数称为未知参数未知参数简称参数
为了估计未知参数的真值或其所在区间,就要从总体X中抽取样本,然后用样本构造某种统计量,来估计未知参数或其范围。
这种方法叫参数估计参数估计
参数估计有很多方法
主要又点估计点估计和点区间估计点区间估计两大类
点估计
点估计就是根据样本构造一个统计量(称为估计量)来估计总体的真实参数值(参数真值)。
如,第五章的独立同分布大数定律,样本均值将依概率收敛到总体X的数学期望
X⎯⎯⎯⎯−→PμX¯→Pμ
当样本较大时,就可以用样本均值来作为总体的数学期望μμ的估计
从一批灯泡中随机获取10个进行寿命试验。用样本均值来估计这批灯泡寿命
得到这批灯泡平均寿命x⎯⎯⎯=110∑i=110xix¯=110∑i=110xi
以上用一个数(点)来估计某个未知参数的方法叫点估计法。
定义
设总体X的分布函数F(x; θθ)的形式已知,θθ是未知参数。从总体X中抽取样本X1,X2,…,XnX1,X2,…,Xn构造某个统计量
θ̂ (X1,X2,…,Xn)θ^(X1,X2,…,Xn)
作为对未知参数θθ的估计,称为θθ的点估计量。
估计量和估计值统称为估计。
显然,对于不同样本值x1,x2,…,xnx1,x2,…,xn,得到的点估计值一般是不同的。
矩估计法
矩估计法思想
据估计法的想法是用样本的各阶矩去近似代替总体的各阶矩。
矩估计法的理论依据是大数定理。
独立同分布大数定理告诉我们:
样本均值依概率收敛与总体均值(数学期望)
X⎯⎯⎯⎯−→PμX¯→Pμ
同理,Xk1,Xk2,…,XknX1k,X2k,…,Xnk相互独立,且与XkXk同分布有
E(Xk1)=E(Xk2)=…=E(Xkn)=E(Xk)=μkE(X1k)=E(X2k)=…=E(Xnk)=E(Xk)=μk
再利用大树定理的
Ak=1n∑i=1nXki−→Pμk=E(Xk)Ak=1n∑i=1nXik→Pμk=E(Xk)
样本k阶矩依概率收敛于总体k阶矩。
矩估计法就是用已知样本矩代替未知的总体矩。
矩估计法过程
设X为连续性随机变量,其概率密度为
f(x;θ1,…θnθ1,…θn)
或者X为离散型随机变量,其分布律为
P{X=x}=p(x;θ1,…θnθ1,…θn)
其中θ1,…θnθ1,…θn为待估参数,X1,X2,…,XnX1,X2,…,Xn是来自总体的样本。
(1)计算总体X的1~k阶矩:
μk=E(Xk)=∫+∞−∞xkf(x;θ1,…θn)dxμk=E(Xk)=∫−∞+∞xkf(x;θ1,…θn)dx连续性
μk=E(Xk)=∑x∈RXxkp(x;θ1,…θn)μk=E(Xk)=∑x∈RXxkp(x;θ1,…θn)离散型
得方程组
(2) 从方程组中解出未知参数
(3)根据大数定理Ak=1n∑i=1nXki−→Pμk=E(Xk)Ak=1n∑i=1nXik→Pμk=E(Xk)用样本矩AlAl分布代替总体矩μlμl,得待估参数的矩估计量
有一个未知参数过程
如果只有一个未知参数θθ,只需求出总体X的一阶矩,即数学期望μ=E(X)μ=E(X),得μ=h(θ)μ=h(θ),然后解出θ=h−1(μ)θ=h−1(μ),最后用样本一阶矩(样本均值)
A1=X⎯⎯⎯⎯=1n∑i=1nXiA1=X¯=1n∑i=1nXi代替μμ,得θθ的据估计量θ̂ =h−1X⎯⎯⎯⎯θ^=h−1X¯
或
(1)计算:E(X)=h(θ)E(X)=h(θ)
(2)替换:E(X)→X⎯⎯⎯⎯E(X)→X¯,θ→θ̂ θ→θ^得X⎯⎯⎯⎯=h(θ̂ )X¯=h(θ^)
(3)解出:θ̂ =h−1X⎯⎯⎯⎯θ^=h−1X¯
##### 例子
已知总体X有概率密度
其中θθ为未知参数。X1,X2,…,XnX1,X2,…,Xn是来自总体X的样本。
(1)求θθ的矩估计量θ̂ θ^
只有一个未知参数,先求总体X的一阶矩
μ1=E(X)=∫+∞−∞xkf(x;θ)dx=∫θ0x6x(θ−x)θ3dx=6θ3∫θ0(θx2−x3)dx=6θ3(θ43−θ44)=θ2μ1=E(X)=∫−∞+∞xkf(x;θ)dx=∫0θx6x(θ−x)θ3dx=6θ3∫0θ(θx2−x3)dx=6θ3(θ43−θ44)=θ2
解出待估参数:θ=2μ1θ=2μ1
用样本一阶矩A1A1代替μ1μ1
的θθ的据估计量θ̂ =2A1=2X⎯⎯⎯⎯=2n∑i=1nXiθ^=2A1=2X¯=2n∑i=1nXi
(2)求θ̂ θ^的方差D(θ̂ θ^)
用到公式D(X⎯⎯⎯⎯)=σ2n=D(X)nD(X¯)=σ2n=D(X)n D(X)=E(X2X2)-[E(X)]2[E(X)]2
E(X2X2)=6θ2206θ220
D(θ̂ )=D(2X⎯⎯⎯⎯)=22D(X⎯⎯⎯⎯)=4D(X)n=4n[6θ220−(θ22)2]=θ25nD(θ^)=D(2X¯)=22D(X¯)=4D(X)n=4n[6θ220−(θ22)2]=θ25n
(3)若3.5,4.4,5.3,4.6,4.8,3.7,5.8,3.9为一组样本观测值,求θθ的矩估计
θ̂ =28∑i=18Xi=14(3.5+4.4+..+3.9)=9θ^=28∑i=18Xi=14(3.5+4.4+..+3.9)=9
概率密度为
两个 未知参数过程
如果有两个未知参数μμ和λλ,则需要求出总体X的一阶矩μ1=E(X)μ1=E(X)和二阶矩μ2=E(X2)=D(X)+[E(X)]2μ2=E(X2)=D(X)+[E(X)]2得μ1=h(θ,λ),μ2=g(θ,λ)μ1=h(θ,λ),μ2=g(θ,λ)
然后解出θ=ϕ(μ1,mu2),λ=ψ(μ1.μ2)θ=ϕ(μ1,mu2),λ=ψ(μ1.μ2)
最后用样本一阶矩A1和样本二阶矩A2代替μ1,μ2μ1,μ2得θ,λθ,λ的据估计量
θ̂ =φ(A1,A2)θ^=φ(A1,A2)
μ̂ =ψ(A1,A2)μ^=ψ(A1,A2)
A1=X⎯⎯⎯⎯=1n∑i=1nXiA1=X¯=1n∑i=1nXi
A2=X⎯⎯⎯⎯=1n∑i=1nX2iA2=X¯=1n∑i=1nXi2
例子
设总体X的均值μμ且方差σ2σ2>0都存在,但它们均未知。设X1,X2,…,XnX1,X2,…,Xn是来自总体X的样本,试求μμ和σ2σ2的据估计量。
总体X的一阶二阶矩为
μ1μ1=E(X)=μμ
μ2=E(X2)=D(X)+[E(X)2]=σ2+μ2μ2=E(X2)=D(X)+[E(X)2]=σ2+μ2
的μ=μ1,σ2=μ2−μ21μ=μ1,σ2=μ2−μ12
用样本一阶矩A1和样本二阶矩A2分别代替总体一阶矩μ1μ1和总体二阶矩μ2μ2
得到μμ和σ2σ2的据估计量
μ̂ =A1=X⎯⎯⎯⎯=1n∑i=1nXiμ^=A1=X¯=1n∑i=1nXi
σ̂ 2=A2−A21=1n∑i=1nX2i−X⎯⎯⎯⎯2=1n∑i=1n(Xi−X⎯⎯⎯⎯)2σ^2=A2−A12=1n∑i=1nXi2−X¯2=1n∑i=1n(Xi−X¯)2
定理
不论总体X服从什么分布,只要E(X)=μμ和D(X)=σ2σ2>0存在但未知。设X1,X2,…,XnX1,X2,…,Xn是来自总体X的样本,则μμ和σ2σ2的据估计量为
μ̂ =X⎯⎯⎯⎯=1n∑i=1nXiμ^=X¯=1n∑i=1nXi
σ̂ 2=B2=1n∑i=1n(Xi−X⎯⎯⎯⎯)2σ^2=B2=1n∑i=1n(Xi−X¯)2
因此,我们常用样本均值和样本二阶中心矩在近似估计总体均值和总体方差。
μ=E(X)≈1n∑i=1nXiμ=E(X)≈1n∑i=1nXi
σ2≈1n∑i=1n(Xi−X⎯⎯⎯⎯)2σ2≈1n∑i=1n(Xi−X¯)2
例子
设使用仪器对一批零件的尺子进行12次独立测量,测试数据如下
120.50 120.52 120.15 120.41 120.31 121.02 120.14 121.21 120.87 121.01 120.10 120.42
使用矩估计法估计总体的均值和方差。
μ̂ =X⎯⎯⎯⎯=112∑i=112Xi=120.5575μ^=X¯=112∑i=112Xi=120.5575
σ̂ 2=B2=112∑i=112(Xi−X⎯⎯⎯⎯)2=112∑i=112X2i−X⎯⎯⎯⎯2=0.1329σ^2=B2=112∑i=112(Xi−X¯)2=112∑i=112Xi2−X¯2=0.1329
另一种计算方法
(1)计算:E(X)=h(θ,λ),D(XZ)=g(θ,λ)E(X)=h(θ,λ),D(XZ)=g(θ,λ)
(2)替换:E(X)→X⎯⎯⎯⎯,D(X)→B2E(X)→X¯,D(X)→B2
θ→θ̂ ,λ→λ̂ θ→θ^,λ→λ^
得X⎯⎯⎯⎯=h(θ̂ ,λ̂ )B2=g(θ̂ ,λ̂ )X¯=h(θ^,λ^)B2=g(θ^,λ^)
(3)解出:θ̂ =φ(X⎯⎯⎯⎯,B2)λ̂ =ψ(X⎯⎯⎯⎯,B2)θ^=φ(X¯,B2)λ^=ψ(X¯,B2)
均匀分布的参数估计
设总体X在区间[a,b]上服从均匀分布,a,b为未知参数。X1,X2,…,XnX1,X2,…,Xn是来自总体X的样本,试求a,b的据估计量。
解 X~U(a,b) E(X)=1/2(a+b),D(X)=1/12(b−a)21/12(b−a)2
先求总体X的一阶矩和二阶矩
μ1μ1=E(X)=12(a+b)12(a+b)
μ2=E(X2)=D(X)+[E(X)2]=112(b−a)2+(a+b2)2μ2=E(X2)=D(X)+[E(X)2]=112(b−a)2+(a+b2)2
解出待估参数a,b
a+b=2μ1a+b=2μ1
112(b−a)2=μ2−μ1112(b−a)2=μ2−μ1
a=μ1−3(μ2−μ21)‾‾‾‾‾‾‾‾‾‾√μ1−3(μ2−μ12)
b=2μ1−a=μ1+3(μ2−μ21)‾‾‾‾‾‾‾‾‾‾√2μ1−a=μ1+3(μ2−μ12)
用A1和A2分布替代总体一阶矩和二阶矩
â =A1−3(A2−A21)‾‾‾‾‾‾‾‾‾‾√a^=A1−3(A2−A12)
b̂ =A1+3(A2−A21)‾‾‾‾‾‾‾‾‾‾√b^=A1+3(A2−A12)
A1=1n∑i=1nXiA1=1n∑i=1nXi
A2=1n∑i=1nX2iA2=1n∑i=1nXi2
A2−A21=1n∑i=1n(Xi−X⎯⎯⎯⎯)2=B2A2−A12=1n∑i=1n(Xi−X¯)2=B2
得a,b的据估计量
â =X⎯⎯⎯⎯−3n∑i=1n(Xi−X⎯⎯⎯⎯)2‾‾‾‾‾‾‾‾‾‾‾‾‾√a^=X¯−3n∑i=1n(Xi−X¯)2
b̂ =X⎯⎯⎯⎯+3n∑i=1n(Xi−X⎯⎯⎯⎯)2‾‾‾‾‾‾‾‾‾‾‾‾‾√b^=X¯+3n∑i=1n(Xi−X¯)2
若有容量为10的样本可以带入公式得到结果
若有100个样本,则分别根接近最小值和最大值。
二项分布的参数估计
设总体X服从参数N,p的二项分布
X~b(N,p)N与p未知,X1,X2,…,XnX1,X2,…,Xn是来自总体X的样本,试求N,p的矩估计量。
X~b(N,p)=>E(X)=Np,D(X)=Np(1-p)
用A1B2分别代替E(X)和D(X)得
N̂ p̂ =A1N̂ p̂ (1−p̂ )=B2N^p^=A1N^p^(1−p^)=B2
A1(1−p̂ )=B2A1(1−p^)=B2
1−p̂ =B2A11−p^=B2A1
p̂ =1−B2A1=1−B2X⎯⎯⎯⎯p^=1−B2A1=1−B2X¯
N̂ =A1p̂ =A11−B2A1=A21A1−B2=X⎯⎯⎯⎯2X⎯⎯⎯⎯−B2N^=A1p^=A11−B2A1=A12A1−B2=X¯2X¯−B2
最大似然估计法 MLE
最大似然原理
假设一个随机试验E有若干可能的结果A1,A2,…A1,A2,…。如果只进行了一次试验,而结果Ak出现了,那么我们就有理由认为试验的条件对结果Ak的出现最有利,即试验E出现的结果Ak的概率最大。
如果有白球和黑球,并且已知两种颜色的球的比例为8:2,但不知道哪个球多。
如果有放回的从袋中取两次球,每次取一个,结果两次都取到黑球,那么我们有理由认为黑球占80%。
因为若黑球80%,则两次都取到黑球概率为0.82=0.640.82=0.64
如果黑球只占20%,则两次都取到黑球的概率为0.22=0.040.22=0.04
因此,两次都取到黑球对我们判断黑球占80%有利。
最大似然法的基本思想就是:
对于已经出现的样本值x1,x2,…,xnx1,x2,…,xn,适当的选取参数θθ,使试验得出结果X1=x1,X2=x2,…,Xn=xnX1=x1,X2=x2,…,Xn=xn的概率最大。
最大似然估计法的模型
离散型
设总体X为离散型随机变量,其分布律为
P{X=x}=p(x;θθ)
其中θθ是未知参数,X1,X2,…,XnX1,X2,…,Xn为来自总体X的样本,x1,x2,…,xnx1,x2,…,xn为其一组样本值。记
L(θ)=p{X1=x1,X2=x2,…,Xn=xn}L(θ)=p{X1=x1,X2=x2,…,Xn=xn}独立性
=P{X1=x1}{X2=x2}…P{Xn=xn}=P{X1=x1}{X2=x2}…P{Xn=xn}
=∏i=1nP{Xi=xi}=∏i=1np(xi;θ)=∏i=1nP{Xi=xi}=∏i=1np(xi;θ)
L(θ)L(θ)称为样本x1,x2,…,xnx1,x2,…,xn的似然函数Likelihood function 因为样本已知常数,所以是一元函数。
由于L(θ)L(θ)事件X1=x1,X2=x2,…,Xn=xnX1=x1,X2=x2,…,Xn=xn的概率,由最大似然估计法的思想,我们希望求这样的θ̂ θ^使得L(θ̂ )L(θ^)达到L(θ)L(θ)的最大值,即
L(θ̂ )=maxθ∈ΘL(θ)L(θ^)=maxθ∈ΘL(θ) 其中Θ是θΘ是θ的取值范围。
连续性
如果X为连续型随机变量,其概率密度为
f(x;θ)(θ∈Θ)f(x;θ)(θ∈Θ)
则样本x1,x2,…,xnx1,x2,…,xn所对应的似然函数为:
L(θ)=∏i=1nf(xi;θ)L(θ)=∏i=1nf(xi;θ)
如何求似然函数的最大值点θ̂ θ^?
在很多情况下,函数p(x;θθ)或f(x;θθ)是可导函数,此时我们可以用微积分求L(θ)L(θ)的最大值点θ̂ θ^。求似然函数的驻点(导数为0的点)。
由于似然函数是n个函数的乘积,直接求导不方便,对数求导发求其最大值点。
最大似然估计法步骤
(1)构造似然函数
L(θ)=∏i=1np(xi;θ)L(θ)=∏i=1np(xi;θ)离散型总体 或
L(θ)=∏i=1nf(xi;θ)L(θ)=∏i=1nf(xi;θ)连续性总体
(2)取对数
lnL(θ)=∑i=1nlnf(xi;θ)lnL(θ)=∑i=1nlnf(xi;θ)
(3)求导,令导数为0,得到驻点一般就是似然函数的最大值点,也就是要求的未知参数θθ的估计量。
如果驻点不存在,则另行分析。
对数求导法:
y=f(x)其两边先取对数lny=lnf(x) [f(x)>0],在同时求导f′(x)f(x)=(lny)′f′(x)f(x)=(lny)′,就得到结果f’(x)=f(x)(lny)’
例子
设总体X服从0-1分布,即X~b(1,p),X1,X2,…,XnX1,X2,…,Xn是来自总体X的一个样本,试求参数p的矩估计量和最大似然估计量。
先求p的矩估计量
μ1=E(X)=pμ1=E(X)=p用样本均值代替总体均值E(X),
的p的矩估计量:p̂ =X⎯⎯⎯⎯p^=X¯
求p的最大似然估计量
P{X=x}=px(1−p)1−px=0,1px(1−p)1−px=0,1
设x1,x2,…,xnx1,x2,…,xn是给定的样本值
对应的似然函数
L(p)=∏i=1npxi(1−p)1−xi(0<p<1)L(p)=∏i=1npxi(1−p)1−xi(0<p<1) 求L(p)的最大值点
取对数
lnL(p)=∑i=1nln[pxi(1−p)1−xi]lnL(p)=∑i=1nln[pxi(1−p)1−xi]
=∑i=1n[xilnp+(1−xi)ln(1−p)]=∑i=1n[xilnp+(1−xi)ln(1−p)]
(Inx)’ = 1/x
对p求导:∑i=1n(xip−1−xi1−p)=0∑i=1n(xip−1−xi1−p)=0
∑i=1nxip=∑i=1n1−xi1−p∑i=1nxip=∑i=1n1−xi1−p
xi∑i=1n1p=11−p(n−∑i=1nxi)xi∑i=1n1p=11−p(n−∑i=1nxi)
1−pp∑i=1nxi=(n−∑i=1nxi)1−pp∑i=1nxi=(n−∑i=1nxi)
(1p−1)∑i=1nxi=(n−∑i=1nxi)(1p−1)∑i=1nxi=(n−∑i=1nxi)
∑i=1nxip=n∑i=1nxip=n
p=1n∑i=1nxi=X⎯⎯⎯⎯p=1n∑i=1nxi=X¯
故p的最大似然估计值为p̂ =X⎯⎯⎯⎯p^=X¯
多参数最大似然估计法
设总体X的分布含有k个未知参数θ1,..,θnθ1,..,θn,设x1,...xnx1,...xn是来自总体X的样本观测值,相应的似然函数为k元函数:
L=L(θ1,…θn)=∏i=1nf(xi;θ1,…,thetan)L=L(θ1,…θn)=∏i=1nf(xi;θ1,…,thetan)
为求这个函数的最大值点,需先求函数的驻点,即各个偏导数同时为0的点
∂L∂θi=0∂L∂θi=0或∂lnL∂θi=0∂lnL∂θi=0
解出θ̂ 1,..,θ̂ kθ^1,..,θ^k,它们分别是未知参数θ1,..,θnθ1,..,θn的最大似然估计量。
例子
设总体X~N(μ,σ2μ,σ2),μ,σ2μ,σ2未知,x1,...xnx1,...xn是来自筒体X的一个样本值,求μ,σ2μ,σ2的最大似然估计量。
X的概率密度
f(x;μ,σ2)=12π√σe−(x−μ)22σ2f(x;μ,σ2)=12πσe−(x−μ)22σ2
相应的似然函数
∏i=1nL(μ,σ2)=∏i=1nf(xi;μ,σ2)=∏i=1n12π√σe−(xi−μ)22σ2=1(2π)n2(σ2)n2∏i=1ne−(xi−μ)22σ2∏i=1nL(μ,σ2)=∏i=1nf(xi;μ,σ2)=∏i=1n12πσe−(xi−μ)22σ2=1(2π)n2(σ2)n2∏i=1ne−(xi−μ)22σ2
求二元函数L的驻点
lnL(μ,σ2)=−n2ln(2π)−n2lnσ2−∑i=1n(xi−μ)22σ2lnL(μ,σ2)=−n2ln(2π)−n2lnσ2−∑i=1n(xi−μ)22σ2
求偏导数
∂lnL∂μ=−∑i=1n(x2i2σ2+μ22σ2−2xiμ2σ2)=∑i=1nxi−μσ2∂lnL∂μ=−∑i=1n(xi22σ2+μ22σ2−2xiμ2σ2)=∑i=1nxi−μσ2
(xi−μ)22σ2(xi−μ)22σ2对σ2σ2求偏导数(xi−μ)22∗1σ2=(xi−μ)22∗−1σ22∑i=1n(xi−μ)22∗1σ2=(xi−μ)22∗−1σ22∑i=1n
∂lnL∂σ2=−n2σ2+(xi−μ)22(σ2)2∑i=1n∂lnL∂σ2=−n2σ2+(xi−μ)22(σ2)2∑i=1n
求驻点
∑i=1nxi−μσ2=0∑i=1nxi−μσ2=0
1σ2(∑i=1nxi−nμ)=01σ2(∑i=1nxi−nμ)=0
μ=1n∑i=1nxi=x⎯⎯⎯μ=1n∑i=1nxi=x¯
−n2σ2+∑i=1n(xi−μ)22(σ2)2=0−n2σ2+∑i=1n(xi−μ)22(σ2)2=0 −n2σ2−n2σ2移到右边,两边去掉−12σ2−12σ2
1σ2∑i=1n(xi−μ)2=n1σ2∑i=1n(xi−μ)2=n
σ2=1n∑i=1n(xi−x⎯⎯⎯)2=b2σ2=1n∑i=1n(xi−x¯)2=b2样本二阶中心矩
μ,σ2μ,σ2的最大似然估计量分别是
μ̂ =X⎯⎯⎯⎯μ^=X¯
σ̂ 2=B2σ^2=B2
最大似然估计的不变性
设θθ的函数u=u(θθ)(θ∈Θθ∈Θ)
具有反函数 θ=φ(u)θ=φ(u)(u∈Uu∈U)
若θ̂ θ^是X的概率分布中参数的最大似然估计,则û =u(θ̂ )u^=u(θ^)是参数u(θθ)的最大似然估计。
估计量的评选标准
无偏估计量
定义
若θθ的估计量θ̂ =θ̂ (X1,…,Xn)θ^=θ^(X1,…,Xn),数学期望E(θ̂ θ^)存在,且对于任意θ∈Θθ∈Θ都有E(θ̂ )=θE(θ^)=θ,则称θ̂ θ^是θθ的无偏估计量。否则为有偏估计量。
θθ的估计量θ̂ =θ̂ (X1,…,Xn)θ^=θ^(X1,…,Xn)
无偏估计量θ̂ :E(θ̂ )=θθ^:E(θ^)=θ
估计量的无偏性是指:如果反复使用这一估计量很多次,则其平均偏差将为零。
E(θ̂ )−θE(θ^)−θ称为估计的系统误差
无偏估计的实际意义就是无系统误差。
命题1
设总体X有均值E(x)=μμ,X1,…,XnX1,…,Xn是来自总体的样本,设样本的线性组合μ̂ =∑ni=1ciXiμ^=∑i=1nciXi是μμ的一个估计量(cici是实数)
证明:μ̂ μ^是μμ的无偏估计量的充分必要条件是∑ni=1ci=1∑i=1nci=1
例子
设总体X~N(μ,σ2μ,σ2),X1,…,XnX1,…,Xn是来自总体的样本,试确定定常数C,使C∑ni=1(Xi+1−Xi)2C∑i=1n(Xi+1−Xi)2为σ2σ2的无偏估计量。
要使E[C∑ni=1(Xi+1−Xi)2]=σ2E[C∑i=1n(Xi+1−Xi)2]=σ2
E[C∑ni=1(Xi+1−Xi)2]E[C∑i=1n(Xi+1−Xi)2]
=C∑ni=1E[(Xi+1−Xi)2]=C∑i=1nE[(Xi+1−Xi)2]
=C∑ni=1[(E(Xi+1)2−2E(X2i+1)E(Xi)+E(X2I)]=C∑i=1n[(E(Xi+1)2−2E(Xi+12)E(Xi)+E(XI2)]
=C(n−1)[(σ2+μ2)−2μ2+(σ2+μ2]=C(n−1)[(σ2+μ2)−2μ2+(σ2+μ2]
=C(n−1)2σ2=σ2=C(n−1)2σ2=σ2
C=12(n−1)C=12(n−1)
E(X2i)=D(Xi)+[E(Xi)]2=σ2+μ2E(Xi2)=D(Xi)+[E(Xi)]2=σ2+μ2
有效性
有些参数可能没有无偏估计量,有些参数有多个无偏估计量。
定义
θ̂ 1=f(X1,..,XN)θ^1=f(X1,..,XN)和θ̂ 2=g(X1,..,XN)θ^2=g(X1,..,XN)都是参数θθ的无偏估计量,若对于任何θ∈Θθ∈Θ都有D(θ̂ 1)≤D(θ̂ 2)D(θ^1)≤D(θ^2),且对至少一个θ∈Θθ∈Θ不等式成立,则称θ̂ 1θ^1是θ̂ 2θ^2比更有效的估计量。
如果是θ̂ θ^的θθ方差最小的无偏估计量,则称θ̂ θ^为θθ的最小方差无偏估计量,它是最有效的估计量。
命题2
设总体X有均值E(x)=μμ,X1,…,XnX1,…,Xn是来自总体的样本,且D(X)存在,则在一切形如
μ̂ =∑ni=1ciXiμ^=∑i=1nciXi (其中∑ni=1ci=1∑i=1nci=1)
的μμ的无偏估计量中,以样本均值X⎯⎯⎯⎯=1n∑i=1nXiX¯=1n∑i=1nXi最有效。
例子
设X1,…,XnX1,…,Xn是总体U(0,θθ)的一个样本,记
θ̂ 1=2X⎯⎯⎯⎯,θ̂ 2=n+1nZ(Z=max1≤i≤n{Xi})θ^1=2X¯,θ^2=n+1nZ(Z=max1≤i≤n{Xi})
证明(1)θ̂ 1θ^1和θ̂ 2θ^2都是θθ的无偏估计量
X~U(a,b)=>E(X)=1/2(a+b),D(X)=1/12(b−a)2(b−a)2
E(θ̂ 1)=E(2X⎯⎯⎯⎯)=2E(X⎯⎯⎯⎯)=2E(X)=2∗0+θ2=θE(θ^1)=E(2X¯)=2E(X¯)=2E(X)=2∗0+θ2=θ
E(θ̂ 2)=E(n+1nZ)=n+1nE(Z)E(θ^2)=E(n+1nZ)=n+1nE(Z)
求Z的概率密度
根据X的概率密度得到X分布函数
Z的分布函数
Fz(x)=P{Z≤x}=P{max1≤i≤n{Xi}max1≤i≤n{Xi}≤x}
=P{max1≤i≤n{Xi}≤x}=P{X1≤x,..,Xn≤x}=P{max1≤i≤n{Xi}≤x}=P{X1≤x,..,Xn≤x}
=P{X1≤x}...P{Xn≤x}=P{X1≤x}...P{Xn≤x}
=F(x)…F(x)=[F(x)]n[F(x)]n
求导的Z的概率密度
fz(x)=fz’(x)=nxn−1/θn(0<x<θ)nxn−1/θn(0<x<θ)
E(Z)=∫θoxnxn−1θndx=nθn+1∫oθxnxn−1θndx=nθn+1
E(θ̂ 2)=n+1nE(Z)=θE(θ^2)=n+1nE(Z)=θ
(2)θ̂ 2θ^2比θ̂ 1θ^1更有效
D(θ̂ 1)=D(2X⎯⎯⎯⎯)=4D(X⎯⎯⎯⎯)=4D(X)n=θ23nD(θ^1)=D(2X¯)=4D(X¯)=4D(X)n=θ23n
D(θ̂ 2)=(n+1n)2D(Z)D(θ^2)=(n+1n)2D(Z)
D(Z)=E(Z2)−[(Z)]2=nθ2n+2−(nθn+1)2D(Z)=E(Z2)−[(Z)]2=nθ2n+2−(nθn+1)2
E(Z2)=∫θox2nxn−1θndx=nθ2n+2E(Z2)=∫oθx2nxn−1θndx=nθ2n+2
D(θ̂ 2)=(n+1n)2D(Z)=θ2n(n+1)D(θ^2)=(n+1n)2D(Z)=θ2n(n+1)
D(θ̂ 2)<D(θ̂ 1)(n≥2)D(θ^2)<D(θ^1)(n≥2)
θ̂ 2θ^2比θ̂ 1θ^1更有效
一致性
定义
设θ̂ =θ̂ (X1,…,Xn)θ^=θ^(X1,…,Xn)是参数θθ的估计量,若对任何θ∈Θθ∈Θ当n→∞n→∞时有
limn→∞P{|θ̂ −θ|<ϵ}=1(∀ϵ>0)limn→∞P{|θ^−θ|<ϵ}=1(∀ϵ>0)
即θ̂ θ^依概率收敛于θθ,θ̂ −→Pθθ^→Pθ
则称θ̂ θ^是θθ的一致估计量
命题3
设θ̂ θ^是参数θθ的估计量,若limn→∞D(θ̂ )=0limn→∞D(θ^)=0,则θ̂ θ^是θθ的一致估计量。
一致估计量的不变性
设θ̂ θ^是θθ的一致估计量,g(θθ)是连续函数,则g(θ̂ θ^)是g(θ)g(θ)的一致估计量
区间估计
置信区间
定义
设总体X的分布函数F(x;θθ)含有参数θ∈Θθ∈Θ(ΘΘ是θθ取值范围)。对于给定的值α(0<α<1)α(0<α<1),若来自总体X的样本X1,…,XnX1,…,Xn确定的两个统计量θ⎯⎯=θ⎯⎯(X1,…,Xn)θ_=θ_(X1,…,Xn)和θ⎯⎯⎯=θ⎯⎯⎯(X1,…,Xn)θ¯=θ¯(X1,…,Xn)
其中θ⎯⎯<overlineθθ_<overlineθ,满足∀θ∈Θ∀θ∈Θ
p{θ⎯⎯<θ<θ⎯⎯⎯}≥1−αp{θ_<θ<θ¯}≥1−α
则称随机区间(θ⎯⎯,θ⎯⎯⎯θ_,θ¯)是θθ的置信水平置信水平为2−α2−α的置信区间置信区间。
θ⎯⎯θ_和θ⎯⎯⎯θ¯分别是置信下限和置信上限。
区间估计一般要结合参数的点估计量来使用。
点估计量只是未知参数的近似值,但它不能告诉我们其精准程度和可信度。
区间估计则通过两个统计量θ⎯⎯θ_和θ⎯⎯⎯θ¯确定了一个区间,使得该区间包含真值的概率不小于1−α1−α。还给出了估计的精度和可信程度。
p{θ⎯⎯<θ<θ⎯⎯⎯}≥1−αp{θ_<θ<θ¯}≥1−α的含义如下:
若反复抽样多次(样本容量不变),每一个样本值x1,..,xnx1,..,xn确定一个区间
(θ⎯⎯,θ⎯⎯⎯)=(θ⎯⎯(X1,…,Xn),θ⎯⎯⎯(X1,…,Xn))(θ_,θ¯)=(θ_(X1,…,Xn),θ¯(X1,…,Xn))
这样的随机区间可能包含θθ的真值,也不能不包含。这些区间中,包含真值的约占100(1−α1−α)%,不包含的仅占100αα%。(αα很小)
αα是一个很小的数,一般取0<αα≤0.3。这样真值落到置信区间外的概率αα比较小。
一般地,αα越小,θθ落入置信区间的可能性就越大(为1-αα),但这个区间也会越宽,估计误差会增大。
所以αα也不能取太小,通常去0.01,0.05,0.1等。