在数理统计复习笔记一——统计中常用的抽样分布和数理统计复习笔记二——充分统计量中,分别介绍了统计量的几个常用抽样分布和充分统计量,引入统计量的目的在于对感兴趣的问题进行统计推断。本文先讨论感兴趣参数的估计问题——点估计。
一、矩估计
1.1 定义
对于样本 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn以及任意一正整数 k k k,我们称 a k = 1 n ∑ i = 1 n X i k (1) a_k=\frac{1}{n}\sum_{i=1}^nX_i^k\tag1 ak=n1i=1∑nXik(1) m k = 1 n ∑ i = 1 n ( X i − X ‾ ) k (2) m_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^k\tag2 mk=n1i=1∑n(Xi−X)k(2)
为样本 k k k阶原点矩和 k k k阶中心矩。
称总体 X X X的 k k k阶原点矩和 k k k阶中心矩分别为 μ k = E X k (3) \mu_k=EX^k\tag3 μk=EXk(3) ν k = E ( X − μ 1 ) k (4) \nu_k=E(X-\mu_1)^k\tag4 νk=E(X−μ1)k(4)
由定义可知,样本矩不依赖于总体中的参数,但总体矩则与分布中的未知参数有关。由中心极限定理和大数定律可知,样本矩是总体矩的一个很好的估计。
1.2 总体均值和方差的矩估计
记 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn为简单随机样本,且总体二阶矩存在,记 μ = E ( X ) \mu=E(X) μ=E(X), σ 2 = V a r ( X ) \sigma^2=Var(X) σ2=Var(X),则由矩估计法可知 μ ^ = a 1 = 1 n ∑ i = 1 n X i (5) \hat\mu=a_1=\frac{1}{n}\sum_{i=1}^nX_i\tag5 μ^=a1=n1i=1∑nXi(5) μ ^ 2 = μ ^ 2 + σ ^ 2 = a 2 = 1 n ∑ i = 1 n X i 2 (6) \hat\mu_2=\hat\mu^2+\hat\sigma^2=a_2=\frac{1}{n}\sum_{i=1}^nX_i^2\tag6 μ^2=μ^2+σ^2=a2=n1i=1∑nXi2(6)
由此可求得总体均值和方差的矩估计为 μ ^ = X ‾ (7) \hat\mu=\overline X\tag7 μ^=X(7) σ ^ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 (8) \hat\sigma^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^2\tag8 σ^2=n1i=1∑n(Xi−X)2(8)
所以,总体均值的矩估计是样本均值,总体方差的矩估计是样本方差的 n − 1 n \frac{n-1}{n} nn−1倍。记 S n ∗ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 S_n^{*2}=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 Sn∗2=n1i=1∑n(Xi−X)2为修正的样本方差。而且上述结论不要求总体分布的形式。
1.3 例子
- 柏松分布 P ( λ ) P(\lambda) P(λ)的总体均值的矩估计: λ ^ = X ‾ (9) \hat\lambda=\overline X\tag9 λ^=X(9) λ ^ = S n ∗ 2 (10) \hat\lambda=S_n^{*2}\tag{10} λ^=Sn∗2(10)
都是总体均值的矩估计( λ \lambda λ既是柏松分布 P ( λ ) P(\lambda) P(λ)的均值,又是方差),但本着选用低阶矩的原则,可以选用 ( 9 ) (9) (9)式。 - 均匀分布 U ( 0 , θ ) U(0, \theta) U(0,θ)中参数 θ \theta θ的估计: θ ^ = 2 X ‾ (11) \hat\theta=2\overline X\tag{11} θ^=2X(11)
二、极大似然估计
2.1 基本思想
认为概率最大的事情最有可能发生。
2.2 似然函数
对于分布族 { f ( x , θ ) , θ ∈ Θ } \{f(x,\theta),\theta\in\Theta\} {
f(x,θ),θ∈Θ},如以 f ( x , θ ) f(\bm x,\theta) f(x,θ)记其 n n n个样本的联合概率分布,则对于给定的样本观测值 x = ( x 1 , ⋯ , x n ) \bm x=(x_1,\cdots,x_n) x=(x1,⋯,xn),我们称 f ( x , θ ) f(\bm x,\theta) f(x,θ)为参数 θ \theta θ的似然函数,简称为似然函数,并记作 L ( θ , x ) = f ( x , θ ) , ∀ θ ∈ Θ (12) L(\theta, \bm x)=f(\bm x,\theta), \forall\theta\in\Theta\tag{12} L(θ,x)=f(x,θ),∀θ∈Θ(12)
称 ln L ( θ , x ) \ln L(\theta, \bm x) lnL(θ,x)为对数似然函数,记为 l ( θ , x ) l(\theta, \bm x) l(θ,x)或 l ( θ ) l(\theta) l(θ)
由定义可知,似然函数与样本联合概率分布相同,但二者的含义却不同:样本联合概率分布是固定参数值 θ \theta θ下关于样本 x \bm x x的函数,它的取值空间为样本空间 X \mathcal X X;似然函数则是固定样本观测值 x \bm x x下关于参数 θ \theta θ的函数,其在参数空间 Θ \Theta Θ上取值。
换句话说就是,当给定参数后,样本联合分布将告诉我们哪个样本将以多大的概率被观测到;反过来,当有了样本后,似然函数将告诉我们如何最有可能的取参数 θ \theta θ的估计。
2.3 MLE
2.3.1 定义
设 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn是来自某概率分布 f ( x , θ ) ∈ F = { f ( x , θ ) , θ ∈ Θ ⊆ R k } f(x,\theta)\in \mathcal F=\{f(x,\theta),\theta\in\Theta\subseteq\bm R^k\} f(x,θ)∈F={
f(x,θ),θ∈Θ⊆Rk}的一组样本,如果统计量 θ ^ ( X ) \hat\theta(\bm X) θ^(X)满足 L ( θ ^ ( x ) , x ) = sup θ ∈ Θ L ( θ , x ) (13) L(\hat\theta(\bm x),\bm x)=\sup_{\theta\in\Theta}L(\theta,\bm x)\tag{13} L(θ^(x),x)=θ∈ΘsupL(θ,x)(13)或等价的满足 l ( θ ^ ( x ) , x ) = sup θ ∈ Θ l ( θ , x ) (14) l(\hat\theta(\bm x),\bm x)=\sup_{\theta\in\Theta}l(\theta,\bm x)\tag{14} l(θ^(x),x)=θ∈Θsupl(θ,x)(14)
则称 θ ^ \hat\theta θ^是 θ \theta θ的MLE
2.3.2 求解
根据定义可知,如果似然函数 L ( θ , x ) L(\theta,\bm x) L(θ,x)关于 θ \theta θ可微,则 θ \theta θ的MLE可以通过求解下面的方程求得: ∂ L ( θ , x ) ∂ θ j = 0 , j = 1 , ⋯ , k (15) \frac{\partial L(\theta,\bm x)}{\partial\theta_j}=0,j=1,\cdots,k\tag{15} ∂θj∂L(θ,x)=0,j=1,⋯
统计推断:矩估计与极大似然估计

本文介绍了统计推断中的矩估计和极大似然估计方法。矩估计通过样本矩来估计总体参数,例如在正态分布和均匀分布中,样本均值和修正样本方差分别是均值和方差的矩估计。极大似然估计则基于最大似然原则,找到使样本出现概率最大的参数估计。对于正态分布和柏松分布,两者估计相同,而在均匀分布中,极大似然估计给出了不同于矩估计的参数估计。此外,讨论了无偏估计、一致最小方差无偏估计(UMVUE)以及相合估计的概念和性质。
最低0.47元/天 解锁文章
4591

被折叠的 条评论
为什么被折叠?



