概率论与数理统计教程(六)-参数估计03:最大似然估计与EM算法

本文详细介绍了最大似然估计的概念、计算方法和实例,包括从直观理解到数学推导,并通过具体的例子展示了如何求解最大似然估计。同时,文章还探讨了EM算法在处理有缺失数据时的有效性,通过一个具体的多项分布例子阐述了EM算法的E步和M步迭代过程,证明了最大似然估计的实用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

§ 6.3 最大似然估计与 EM 算法
最大似然估计 (MLE) 最早是由德国数学家高斯 (Gauss) 在 1821
年针对正态分布提出的, 但一般将之归功于费希尔, 因为费希尔在 1922
年再次提出了这种想法并证明了它的一些性质而使得最大似然法得到了广泛的应用.
本节将给出最大似然估计的定义与计算及求取某些复杂情况下 MLE
的一种有效算法------M 算法, 并介绍最大似然估计的渐近正态性.
6.3.1 最大似然估计
为了叙述最大似然原理的直观想法, 先看两个例子.
例 6.3.1 设有外形完全相同的两个箱子, 甲箱中有 99 个白球和 1
个黑球,乙箱中有 99 个黑球和 1 个白球, 今随机地抽取一箱,
并从中随机抽取一球, 结果取得白球, 问这球是从哪一个箱子中取出?
解 不管是哪一个箱子, 从箱子中任取一球都有两个可能的结果: AAA 表示
“取出白球”, BBB 表示"取出黑球". 如果我们取出的是甲箱, 则 AAA
发生的概率为 0.99 , 而如果取出的是乙箱, 则 AAA 发生的概率为 0.01 .
现在一次试验中结果 AAA 发生了, 人们的第一印象就是: “此白球 (A)(A)(A)
最像从甲箱取出的”, 或者说, 应该认为试验条件对结果 AAA
出现有利,从而可以推断这球是从甲箱中取出的. 这个推断很符合人们的经验事实,
这里 “最像"就是"最大似然"之意. 这种想法常称为"最大似然原理”.
本例中假设的数据很极端.一般地, 我们可以这样设想: 有两个箱子中各有 100
只球, 甲箱中白球的比例是 p1p_{1}p1, 乙箱中白球的比例是 p2p_{2}p2, 已知
p1>p2p_{1}>p_{2}p1>p2, 现随机地抽取一个箱子并从中抽取一球, 假定取到的是白球,
如果我们要在两个箱子中进行选择, 由于甲箱中白球的比例高于乙箱,
根据最大似然原理,我们应该推断该球来自甲箱.
例 6.3.2 设产品分为合格品与不合格品两类, 我们用一个随机变量 XXX
来表示某个产品经检查后的不合格品数, 则 X=0X=0X=0 表示合格品, X=1X=1X=1
表示不合格品, 则 XXX 服从二点分布 b(1,p)b(1, p)b(1,p), 其中 ppp
是未知的不合格品率. 现抽取 nnn 个产品看其是否合格, 得到样本
x1,x2⋯ ,xnx_{1}, x_{2} \cdots, x_{n}x1,x2,xn, 这批观测值发生的概率为
P(X1=x1,X2=x2,⋯ ,Xn=xn;p)=∏i=1npxi(1−p)1−xi=p∑i=1nxi(1−p)n−∑i=1nxi,P\left(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n} ; p\right)=\prod_{i=1}^{n} p^{x_{i}}(1-p)^{1-x_{i}}=p^{\sum_{i=1}^{n} x_{i}}(1-p)^{n-\sum_{i=1}^{n} x_{i}},P(X1=x1,X2=x2,,Xn=xn;p)=i=1npxi(1p)1xi=pi=1nxi(1p)ni=1nxi,
由于 ppp 是未知的, 根据最大似然原理, 我们应选择 ppp 使得 (6.3.1)
表示的概率尽可能大.将 (6.3.1) 看作未知参数 ppp 的函数, 用 L(p)L(p)L(p) 表示,
称作似然函数, 亦即
L(p)=p∑i=1nxi(1−p)n−∑i=1nxi,L(p)=p^{\sum_{i=1}^{n} x_{i}}(1-p)^{n-\sum_{i=1}^{n} x_{i}},L(p)=pi=1nxi(1p)ni=1nxi,
要求 (6.3.2) 的最大值点不是难事, 将 (6.3.2) 两端取对数并关于 ppp
求导令其为 0 , 即得如下方程, 又称似然方程:
∂ln⁡L(p)∂p=∑i=1nxip−n−∑i=1nxi1−p=0.\frac{\partial \ln L(p)}{\partial p}=\frac{\sum_{i=1}^{n} x_{i}}{p}-\frac{n-\sum_{i=1}^{n} x_{i}}{1-p}=0 .plnL(p)=pi=1nxi1pni=1nxi=0.
解之即得 ppp 的最大似然估计,为
p^=p^(x1,x2,⋯ ,xn)=∑i=1nxi/n=xˉ.\hat{p}=\hat{p}\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\sum_{i=1}^{n} x_{i} / n=\bar{x} .p^=p^(x1,x2,,xn)=i=1nxi/n=xˉ.
由例 6.3.2 我们可以看到求最大似然估计的基本思路. 对离散总体,
设有样本观测值 x1,x2,⋯ ,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,,xn,
我们写出该观测值出现的概率, 它一般依赖于某个或某些参数, 用 θ\thetaθ
表示, 将该概率看成 θ\thetaθ 的函数, 用 L(θ)L(\theta)L(θ) 表示, 又称似然函数,

L(θ)=P(X1=x1,X2=x2,⋯ ,Xn=xn;θ),L(\theta)=P\left(X_{1}=x_{1}, X_{2}=x_{2}, \cdots, X_{n}=x_{n} ; \theta\right),L(θ)=P(X1=x1,X2=x2,,Xn=xn;θ),
求最大似然估计就是找 θ\thetaθ 的估计值
θ^=θ^(x1,x2,⋯ ,xn)\hat{\theta}=\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right)θ^=θ^(x1,x2,,xn)
使得上式的 L(θ)L(\theta)L(θ) 达到最大.
对连续总体, 样本观测值 x1,x2,⋯ ,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,,xn 出现的概率总是为 0
的,
但我们可用联合概率密度函数来表示随机变量在观测值附近出现的可能性大小,
也将其称为似然函数,由此, 我们给出如下定义.
定义 6.3.1 设总体的概率函数为 p(x;θ),θ∈Θp(x ; \theta), \theta \in \Thetap(x;θ),θΘ, 其中
θ\thetaθ 是一个未知参数或几个未知参数组成的参数向量, Θ\ThetaΘ
是参数空间, x1,x2,⋯ ,xnx_{1}, x_{2}, \cdots, x_{n}x1,x2,,xn 是来自该总体的样本,
将样本的联合概率函数看成 θ\thetaθ 的函数, 用
L(θ;x1,x2,⋯ ,xn)L\left(\theta ; x_{1}, x_{2}, \cdots, x_{n}\right)L(θ;x1,x2,,xn) 表示, 简记为
L(θ)L(\theta)L(θ),
L(θ)=L(θ;x1,x2,⋯ ,xn)=p(x1;θ)p(x2;θ)⋯p(xn;θ),L(\theta)=L\left(\theta ; x_{1}, x_{2}, \cdots, x_{n}\right)=p\left(x_{1} ; \theta\right) p\left(x_{2} ; \theta\right) \cdots p\left(x_{n} ; \theta\right),L(θ)=L(θ;x1,x2,,xn)=p(x1;θ)p(x2;θ)p(xn;θ),
L(θ)L(\theta)L(θ) 称为样本的似然函数. 如果某统计量
θ^=θ^(x1,x2,⋯ ,xn)\hat{\theta}=\hat{\theta}\left(x_{1}, x_{2}, \cdots, x_{n}\right)θ^=θ^(x1,x2,,xn) 满足
L(θ^)=max⁡θ∈θL(θ),L(\hat{\theta})=\max _{\theta \in \theta} L(\theta),L(θ^)=θθmaxL(θ),
则称 θ^\hat{\theta}θ^θ\thetaθ 的最大似然估计, 简记为 MLE (maximum
likelihood estimate).
由于 ln⁡x\ln xlnxxxx 的单调增函数, 因此, 使对数似然函数 ln⁡L(θ)\ln L(\theta)lnL(θ)
达到最大与使 L(θ)L(\theta)L(θ) 达到最大是等价的. 人们通常更习惯于由
ln⁡L(θ)\ln L(\theta)lnL(θ) 出发寻找 θ\thetaθ 的最大似然估计. 当 L(θ)L(\theta)L(θ)
是可微函数时, 求导是求最大似然估计最常用的方法,
此时对对数似然函数求导更加简单些.
注意, 从最大似然估计的定义可以看出, 若 L(θ)L(\theta)L(θ)
与联合概率函数相差一个与 θ\thetaθ 无关的比例因子, 不会影响最大似然估计,
因此, 可以在 L(θ)L(\theta)L(θ) 中剔去与 θ\thetaθ 无关的因子.
例 6.3.3 (续例 6.2.6) 在例 6.2.6 中我们给出了 θ\thetaθ 的三个矩估计,
这里考虑 θ\thetaθ 的最大似然估计. 似然函数为
L(θ)=(θ2)n1[2θ(1−θ)]n2[(1−θ)2]n3=2n2θ2n1+n2(1−θ)2n3+n2,L(\theta)=\left(\theta^{2}\right)^{n_{1}}[2 \theta(1-\theta)]^{n_{2}}\left[(1-\theta)^{2}\right]^{n_{3}}=2^{n_{2}} \theta^{2 n_{1}+n_{2}}(1-\theta)^{2 n_{3}+n_{2}},L(θ)=(θ2)n1[2θ(1θ)]n2[(1θ)2]n3=2n2θ2n1+n2(1θ)2n3+n2,
其对数似然函数为
ln⁡L(θ)=(2n1+n2)ln⁡θ+(2n3+n2)ln⁡(1−θ)+n2ln⁡2.\ln L(\theta)=\left(2 n_{1}+n_{2}\right) \ln \theta+\left(2 n_{3}+n_{2}\right) \ln (1-\theta)+n_{2} \ln 2 .lnL(θ)=(2n1+n2)lnθ+(2n3+n2)ln(1θ)+n2ln2.
将之关于 θ\thetaθ 求导并令其为 0 得到似然方程
2n1+n2θ−2n3+n21−θ=0.\frac{2 n_{1}+n_{2}}{\theta}-\frac{2 n_{3}+n_{2}}{1-\theta}=0 .θ2n1+n21θ2n3+n2=0.
解之, 得
θ^=2n1+n22(n1+n2+n3)=2n1+n22n.\hat{\theta}=\frac{2 n_{1}+n_{2}}{2\left(n_{1}+n_{2}+n_{3}\right)}=\frac{2 n_{1}+n_{2}}{2 n} .θ^=2(n1+n2+n3)2n1+n2=2n2n1+n2.
由于
∂2ln⁡L(θ)∂θ2=−2n1+n2θ2−2n3+n2(1−θ)2<0,\frac{\partial^{2} \ln L(\theta)}{\partial \theta^{2}}=-\frac{2 n_{1}+n_{2}}{\theta^{2}}-\frac{2 n_{3}+n_{2}}{(1-\theta)^{2}}<0,θ22lnL(θ)=θ22n1+n2(1θ)22n3+n2<0,
所以 θ^\hat{\theta}θ^ 是极大值点.
例 6.3.4 对正态总体
N(μ,σ2),θ=(μ,σ2)N\left(\mu, \sigma^{2}\right), \theta=\left(\mu, \sigma^{2}\right)N(μ,σ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值