数理统计:极大似然估计与EM算法

本文介绍了极大似然估计(MLE)的基本原理及其在参数估计中的应用,并详细阐述了EM算法的工作流程,包括E步和M步的具体实现,以及算法背后的数学理论支撑。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

       极大似然估计(MLE)是统计学习,机器学习中常用的参数估计方法。当然有时候MLE会碰到复杂情况,比如比如数据不完整的时候,或者参数没有闭合解且情况特别复杂时,这时不直接求MLE,而采用确保收敛到MLE的办法,也就是期望极大化准则(EM准则),俗称EM算法。

一 极大似然估计(MLE)

       已知随机变量XX的密度表达式,其中包含来自Θ的位置参数θθ,密度函数可写为f(x;θ),θΘf(x;θ),θ∈Θ是对应函数族P={f(x;θ)θΘ}P={f(x;θ)∣θ∈Θ}中的一个函数。 令随机样本x=(x1,...,xn)Tx_=(x1,...,xn)T是来自密度函数f(x;θ)f(x;θ)的随机样本X=(X1,...,Xn)TX_=(X1,...,Xn)T的观测值。我们希望用极大似然法估计θθ的函数g(θ)g(θ).

       极大似然估计的基本思想是:在随机采样实验中,小概率事件基本不发生,而已经发生的应该是大概率事件。假定随机样本之间相互独立且分布相同;则xx_发生的概率是L(θ;x)=ni=1f(xi;θ)L(θ;x_)=∏i=1n⁡f(xi;θ),称为似然函数。

       极大似然估计就是要最大化已经发生的事件的概率L(θ;x)L(θ;x_);另外,由于自然对数函数是单调递增的,所以最大化对数似然函数l(θ;x)=ln(L(θ;x))l(θ;x_)=ln(L(θ;x_))等价于最大化似然函数L(θ;x)L(θ;x_)

1.1 极大似然估计原理

       若样本来自于概率分布f(x;θ),θΘf(x;θ∗),θ∗∈Θ,则有:

Pθ[L(θ;x)L(θ;x)]1;n(1)Pθ[L(θ∗;x_)≥L(θ;x_)]→1;n→∞(1)

证明:

Pθ[L(θ;X)L(θ;X)]=Pθ[L(θ;X)L(θ;X)1]=Pθ[1nni=1ln(f(Xi;θ)f(Xi;θ))0]Pθ[L(θ∗;X_)≥L(θ;X_)]=Pθ[L(θ;X_)L(θ∗;X_)≤1]=Pθ[1n∑i=1nln(f(Xi;θ)f(Xi;θ∗))≤0]

由强大数定理和Jessen不等式有:
1ni=1nln(f(Xi;θ)f(Xi;θ))a.s.Eθ(ln(f(Xi;θ)f(Xi;θ)))lnEθ(f(Xi;θ)f(Xi;θ))=01n∑i=1nln(f(Xi;θ)f(Xi;θ∗))→a.s.Eθ(ln(f(Xi;θ)f(Xi;θ∗)))≤lnEθ(f(Xi;θ)f(Xi;θ∗))=0

得证。
1.2 例子:贝努利分布的MLE

       已知随机样本随机样本X=(X1,...,Xn)TX_=(X1,...,Xn)T独立同分布与Bernoulli(θ)Bernoulli(θ),则对数似然函数为:

l(θ;x)=(i=1nxi)ln(θ)+(ni=1nxi)ln(1θ)l(θ;x_)=(∑i=1nxi)ln(θ)+(n−∑i=1nxi)ln(1−θ)

一阶条件为:
l(θ;x)θ=ni=1xiθ+nni=1xi1θ=0∂l(θ;x_)∂θ=∑i=1nxiθ+n−∑i=1nxi1−θ=0

求解得到极大似然估计量θ^ML=ni=1xin=x¯θ^ML=∑i=1nxin=x¯.
二 EM算法

       有些时候,可能存在一些隐藏随机变量无法直接观测(隐变量),这时候观测不到完整的数据。在求解不完整数据比较复杂,而求解完整数据比较简单的时候,可以采用EM准则。EM准则不直接求出MLE,而是确保可以收敛到MLE。EM准则经典模型有高斯混合模型,另一个经典的模型是受限玻尔兹曼机(RBM)

2.1 EM算法描述

       设可观测的不完整变量为V=(V1,...,Vn)TV_=(V1,...,Vn)T,隐藏的变量为H=(H1,...,Hm)TH_=(H1,...,Hm)T,完整数据为X=(V,H)X_=(V_,H_)X;VX_;V_的密度函数关系如下:

fv(v;θ)=fX(v,h;θ)dhfv_(v_;θ)=∫fX_(v_,h_;θ)dh_

       EM 准则的目标是基于不完整的数据的似然函数L(θ;V)(=fv(v;θ))L(θ;V_)(=fv_(v_;θ))求出θθ的MLE:θ^=θ^(V)θ^=θ^(V_).完整的数据的似然函数是L(θ;X)=fX(X;θ)L(θ;X_)=fX_(X_;θ).
       求解θ^θ^分两步,从初始化θ(0)θ(0)开始:

  1. E步:计算期望条件
    Q(θ,θ(0))=Q(θV,θ(0))E[lnL(θ;X)V,θ(0)](2)(2)Q(θ,θ(0))=Q(θ∣V_,θ(0))≡E[lnL(θ;X_)∣V_,θ(0)]
  2. M 步,极大化Q(θ)Q(θ).得到更新的θ(1)θ(1)
  3. 回到E步,θ(0)=θ(1)θ(0)=θ(1),继续迭代直到收敛。

        进一步解释:

E 步:Q(θ,θ(0))Q(θ,θ(0))的积分表示如下:

E[lnL(θ;X)V,θ(0)]f(hv,θ(0))lnL(θ;X)vdhE[lnL(θ;X_)∣V_,θ(0)]≡∫f(h∣v,θ(0))lnL(θ;X_)|vdh

M步有:
Q(θ(j+1),θ(j))=maxθΘQ(θ,θ(j))Q(θ,θ(j))(3)(3)Q(θ(j+1),θ(j))=maxθ∈ΘQ(θ,θ(j))≥Q(θ,θ(j))
2.2 EM算法性质

2.2.1 Jenson不等式

离散形式
ΩΩ是有限集合{x1,x2,...xn}{x1,x2,...xn},f(x),g(x)f(x),g(x)ΩΩ上的两个概率测度,ϕ:RRϕ:R→R是凹函数,则有:

ϕ(i=1nf(xi)g(xi))i=1n(ϕ(f(xi))g(xi))(4)(4)ϕ(∑i=1nf(xi)g(xi))≥∑i=1n(ϕ(f(xi))g(xi))

等式成立的充要条件是:f(xi)c,i1...nf(xi)≡c,∀i∈1...n

推论1:在给定概率分布f(x)f(x)的条件下,任意概率分布g(x)g(x),使得

i=1n(ϕ(f(xi)g(xi))g(xi))(5)(5)∑i=1n(ϕ(f(xi)g(xi))g(xi))
取得最大值的充要条件是:
f(xi)=g(xi),i(1...n)f(xi)=g(xi),∀i∈(1...n)

证明:根据Jenson不等式,有
i=1n(ϕ(f(xi)g(xi))g(xi))ϕ(i=1n(f(xi)g(xi)g(xi)))=ϕ(1)∑i=1n(ϕ(f(xi)g(xi))g(xi))≤ϕ(∑i=1n(f(xi)g(xi)g(xi)))=ϕ(1)

可知(5)式的极大值是ϕ(1)ϕ(1),等式成立的充要条件是:f(xi)g(xi)=cf(xi)g(xi)=c
并且有i(f(xi)cg(xi))=0c=1∑i(f(xi)−cg(xi))=0⇒c=1
所以:f(xi)=g(xi),i(1...n)f(xi)=g(xi),∀i∈(1...n)
证毕。

连续形式
ΩRnΩ⊆Rn,f(x),g(x)f(x),g(x)ΩΩ上的两个概率测度,ϕ:RRϕ:R→R是凹函数,则有:

ϕ(xΩf(x)g(x)dx)xΩϕ(f(x))g(x)dx(4.1)(4.1)ϕ(∫x∈Ωf(x)g(x)dx)≥∫x∈Ωϕ(f(x))g(x)dx

等式成立的充要条件是:f(x)c,xΩf(x)≡c,∀x∈Ω

定理 2:在给定概率密度f(x)f(x)的条件下,任意概率密度g(x)g(x)ϕ:RRϕ:R→R是凹函数,使得

J(g(x))xΩϕ(f(x)g(x))g(x)dx(5.1)(5.1)J(g(x))≡∫x∈Ωϕ(f(x)g(x))g(x)dx
取得最大值的充要条件是:
f(x)=g(x),xΩf(x)=g(x),∀x∈Ω

2.2.2 可观察变量的似然函数

lnL(θ;V)=lnfX(v,h;θ)dh=lnfH(hv;θ)fX(vh;θ)fH(hv;θ)dhfH(hv;θ)ln(fX(vh;θ)fH(hv;θ))dh(6)(6)lnL(θ;V_)=ln∫fX_(v_,h_;θ)dh_=ln∫fH_(h_∣v;θ)fX_(v_h_;θ)fH_(h_∣v;θ)dh_≥∫fH_(h_∣v;θ)ln(fX_(v_h_;θ)fH_(h_∣v;θ))dh_

       EM 算法不直最大化对数似然函数lnL(θ;V)lnL(θ;V_),而是不断最大化它的下界:
l(θ)=fH(hv;θ)ln(fX(vh;θ)fH(hv;θ))dh(7)(7)l(θ)=∫fH_(h_∣v;θ)ln(fX_(v_h_;θ)fH_(h_∣v;θ))dh_

2.2.3 E步的作用
       假设若干步迭代后,得到θ(j)θ(j)计算

Q(θ,θ(j))=E[lnL(θ;X)V,θ(j)]f(hv,θ(j))lnL(θ;X)vdhQ(θ,θ(j))=E[lnL(θ;X_)∣V_,θ(j)]≡∫f(h∣v,θ(j))lnL(θ;X_)|vdh

       实际上有先要计算f(hv,θ(j))f(h∣v,θ(j)),然后跟下式:
L(θ(j);X)v=fX(v,h;θ(j))v=f(hv,θ(j))f(v,θ(j))v(131)(132)(131)L(θ(j);X_)|v=fX_(v_,h_;θ(j))|v(132)=f(h∣v,θ(j))∗f(v,θ(j))|v

得到:
fX(v,h;θ(j))f(hv,θ(j))v=f(v,θ(j))vc(8)(8)fX_(v_,h_;θ(j))f(h∣v,θ(j))|v=f(v,θ(j))|v≡c

       可以看出,E步根据θ(j)θ(j)更新Q(θ,θ(j))Q(θ,θ(j)),实际上同时更新隐变量在给定隐变量的密度函数:f(hv,θ(j))vf(h∣v,θ(j))∣v_
根据jesson不等式和(8)式,实际是在给定fX(v,h;θ(j))vfX_(v_,h_;θ(j))|v的条件下,极大化l(θ(j))=L(θ(j);V)l(θ(j))=L(θ(j);V_)
       因此有:
L(θ(j);V)=l(θ(j))=fH(hv;θ(j))ln(fX(v,h;θ(j))fH(hv;θ(j)))dhfH(hv;θ(j1))ln(fX(v,h;θ(j))fH(hv;θ(j1)))dh=Q(θ(j),θ(j1))fH(hv;θ(j1))ln(fH(hv;θ(j1)))dh(133)(134)(135)(136)(9)(9)(133)L(θ(j);V_)=l(θ(j))(134)=∫fH_(h_∣v;θ(j))ln(fX_(v_,h_;θ(j))fH_(h_∣v;θ(j)))dh_(135)≥∫fH_(h_∣v;θ(j−1))ln(fX_(v_,h_;θ(j))fH_(h_∣v;θ(j−1)))dh_(136)=Q(θ(j),θ(j−1))−∫fH_(h_∣v;θ(j−1))ln(fH_(h_∣v;θ(j−1)))dh_

2.2.4 M步的作用

       M步是极大化Q(θ,θ(j1))Q(θ,θ(j−1))得到θ(j)θ(j),即:

θ(j)=argmaxθΘQ(θ,θ(j1))θ(j)=arg⁡maxθ∈ΘQ(θ,θ(j−1))

       因此有:
Q(θ(j),θ(j1))Q(θ,θ(j1)),θΘQ(θ(j),θ(j1))Q(θ(j1),θ(j1))Q(θ(j),θ(j−1))≥Q(θ,θ(j−1)),∀θ∈Θ⇒Q(θ(j),θ(j−1))≥Q(θ(j−1),θ(j−1))

       结合(9)式有:
L(θ(j);V)Q(θ(j1),θ(j1))fH(hv;θ(j1))ln(fH(hv;θ(j1)))dh=fH(hv;θ(j1))ln(fX(v,h;θ(j1))fH(hv;θ(j1)))dh=l(θ(j1))=L(θ(j1);V)(137)(138)(139)(140)(10)(10)(137)L(θ(j);V_)≥Q(θ(j−1),θ(j−1))−∫fH_(h_∣v;θ(j−1))ln(fH_(h_∣v;θ(j−1)))dh_(138)=∫fH_(h_∣v;θ(j−1))ln(fX_(v_,h_;θ(j−1))fH_(h_∣v;θ(j−1)))dh_(139)=l(θ(j−1))(140)=L(θ(j−1);V_)

       由此可以看出,EM每完成一次迭代,都有:L(θ(j);V)L(θ(j1);V)L(θ(j);V_)≥L(θ(j−1);V_),EM算法通过迭不断增大L(θ(j);V)L(θ(j);V_)的下界l(θ)l(θ)来估计参数θ^θ^;并不能保证L(θ^;V)L(θ^;V_)达到极大值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值