数理统计复习笔记三——点估计

统计推断:矩估计与极大似然估计
本文介绍了统计推断中的矩估计和极大似然估计方法。矩估计通过样本矩来估计总体参数,例如在正态分布和均匀分布中,样本均值和修正样本方差分别是均值和方差的矩估计。极大似然估计则基于最大似然原则,找到使样本出现概率最大的参数估计。对于正态分布和柏松分布,两者估计相同,而在均匀分布中,极大似然估计给出了不同于矩估计的参数估计。此外,讨论了无偏估计、一致最小方差无偏估计(UMVUE)以及相合估计的概念和性质。

数理统计复习笔记一——统计中常用的抽样分布数理统计复习笔记二——充分统计量中,分别介绍了统计量的几个常用抽样分布和充分统计量,引入统计量的目的在于对感兴趣的问题进行统计推断。本文先讨论感兴趣参数的估计问题——点估计。

一、矩估计

1.1 定义

对于样本 X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn以及任意一正整数 k k k,我们称 a k = 1 n ∑ i = 1 n X i k (1) a_k=\frac{1}{n}\sum_{i=1}^nX_i^k\tag1 ak=n1i=1nXik(1) m k = 1 n ∑ i = 1 n ( X i − X ‾ ) k (2) m_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^k\tag2 mk=n1i=1n(XiX)k(2)
为样本 k k k原点矩 k k k中心矩

称总体 X X X k k k原点矩 k k k中心矩分别为 μ k = E X k (3) \mu_k=EX^k\tag3 μk=EXk(3) ν k = E ( X − μ 1 ) k (4) \nu_k=E(X-\mu_1)^k\tag4 νk=E(Xμ1)k(4)

由定义可知,样本矩不依赖于总体中的参数,但总体矩则与分布中的未知参数有关。由中心极限定理和大数定律可知,样本矩是总体矩的一个很好的估计。

1.2 总体均值和方差的矩估计

X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn为简单随机样本,且总体二阶矩存在,记 μ = E ( X ) \mu=E(X) μ=E(X) σ 2 = V a r ( X ) \sigma^2=Var(X) σ2=Var(X),则由矩估计法可知 μ ^ = a 1 = 1 n ∑ i = 1 n X i (5) \hat\mu=a_1=\frac{1}{n}\sum_{i=1}^nX_i\tag5 μ^=a1=n1i=1nXi(5) μ ^ 2 = μ ^ 2 + σ ^ 2 = a 2 = 1 n ∑ i = 1 n X i 2 (6) \hat\mu_2=\hat\mu^2+\hat\sigma^2=a_2=\frac{1}{n}\sum_{i=1}^nX_i^2\tag6 μ^2=μ^2+σ^2=a2=n1i=1nXi2(6)
由此可求得总体均值和方差的矩估计为 μ ^ = X ‾ (7) \hat\mu=\overline X\tag7 μ^=X(7) σ ^ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 (8) \hat\sigma^2=\frac{1}{n}\sum_{i=1}^n(X_i-\overline X)^2\tag8 σ^2=n1i=1n(XiX)2(8)
所以,总体均值的矩估计是样本均值,总体方差的矩估计是样本方差的 n − 1 n \frac{n-1}{n} nn1。记 S n ∗ 2 = 1 n ∑ i = 1 n ( X i − X ‾ ) 2 S_n^{*2}=\frac{1}{n}\sum\limits_{i=1}^n(X_i-\overline X)^2 Sn2=n1i=1n(XiX)2修正的样本方差。而且上述结论不要求总体分布的形式。

1.3 例子

  • 柏松分布 P ( λ ) P(\lambda) P(λ)的总体均值的矩估计: λ ^ = X ‾ (9) \hat\lambda=\overline X\tag9 λ^=X(9) λ ^ = S n ∗ 2 (10) \hat\lambda=S_n^{*2}\tag{10} λ^=Sn2(10)
    都是总体均值的矩估计( λ \lambda λ既是柏松分布 P ( λ ) P(\lambda) P(λ)的均值,又是方差),但本着选用低阶矩的原则,可以选用 ( 9 ) (9) (9)式。
  • 均匀分布 U ( 0 , θ ) U(0, \theta) U(0,θ)中参数 θ \theta θ的估计: θ ^ = 2 X ‾ (11) \hat\theta=2\overline X\tag{11} θ^=2X(11)

二、极大似然估计

2.1 基本思想

认为概率最大的事情最有可能发生。

2.2 似然函数

对于分布族 { f ( x , θ ) , θ ∈ Θ } \{f(x,\theta),\theta\in\Theta\} { f(x,θ),θΘ},如以 f ( x , θ ) f(\bm x,\theta) f(x,θ)记其 n n n个样本的联合概率分布,则对于给定的样本观测值 x = ( x 1 , ⋯   , x n ) \bm x=(x_1,\cdots,x_n) x=(x1,,xn),我们称 f ( x , θ ) f(\bm x,\theta) f(x,θ)为参数 θ \theta θ的似然函数,简称为似然函数,并记作 L ( θ , x ) = f ( x , θ ) , ∀ θ ∈ Θ (12) L(\theta, \bm x)=f(\bm x,\theta), \forall\theta\in\Theta\tag{12} L(θ,x)=f(x,θ),θΘ(12)
ln ⁡ L ( θ , x ) \ln L(\theta, \bm x) lnL(θ,x)为对数似然函数,记为 l ( θ , x ) l(\theta, \bm x) l(θ,x) l ( θ ) l(\theta) l(θ)

由定义可知,似然函数与样本联合概率分布相同,但二者的含义却不同:样本联合概率分布是固定参数值 θ \theta θ下关于样本 x \bm x x的函数,它的取值空间为样本空间 X \mathcal X X;似然函数则是固定样本观测值 x \bm x x下关于参数 θ \theta θ的函数,其在参数空间 Θ \Theta Θ上取值

换句话说就是,当给定参数后,样本联合分布将告诉我们哪个样本将以多大的概率被观测到;反过来,当有了样本后,似然函数将告诉我们如何最有可能的取参数 θ \theta θ的估计

2.3 MLE

2.3.1 定义

X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn是来自某概率分布 f ( x , θ ) ∈ F = { f ( x , θ ) , θ ∈ Θ ⊆ R k } f(x,\theta)\in \mathcal F=\{f(x,\theta),\theta\in\Theta\subseteq\bm R^k\} f(x,θ)F={ f(x,θ),θΘRk}的一组样本,如果统计量 θ ^ ( X ) \hat\theta(\bm X) θ^(X)满足 L ( θ ^ ( x ) , x ) = sup ⁡ θ ∈ Θ L ( θ , x ) (13) L(\hat\theta(\bm x),\bm x)=\sup_{\theta\in\Theta}L(\theta,\bm x)\tag{13} L(θ^(x),x)=θΘsupL(θ,x)(13)或等价的满足 l ( θ ^ ( x ) , x ) = sup ⁡ θ ∈ Θ l ( θ , x ) (14) l(\hat\theta(\bm x),\bm x)=\sup_{\theta\in\Theta}l(\theta,\bm x)\tag{14} l(θ^(x),x)=θΘsupl(θ,x)(14)
则称 θ ^ \hat\theta θ^ θ \theta θMLE

2.3.2 求解

根据定义可知,如果似然函数 L ( θ , x ) L(\theta,\bm x) L(θ,x)关于 θ \theta θ可微,则 θ \theta θ的MLE可以通过求解下面的方程求得: ∂ L ( θ , x ) ∂ θ j = 0 , j = 1 , ⋯   , k (15) \frac{\partial L(\theta,\bm x)}{\partial\theta_j}=0,j=1,\cdots,k\tag{15} θjL(θ,x)=0,j=1,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值