极大似然估计(MLE)是统计学习,机器学习中常用的参数估计方法。当然有时候MLE会碰到复杂情况,比如比如数据不完整的时候,或者参数没有闭合解且情况特别复杂时,这时不直接求MLE,而采用确保收敛到MLE的办法,也就是期望极大化准则(EM准则),俗称EM算法。
一 极大似然估计(MLE)
已知随机变量XX的密度表达式,其中包含来自的位置参数θθ,密度函数可写为f(x;θ),θ∈Θf(x;θ),θ∈Θ是对应函数族P={f(x;θ)∣θ∈Θ}P={f(x;θ)∣θ∈Θ}中的一个函数。 令随机样本x––=(x1,...,xn)Tx_=(x1,...,xn)T是来自密度函数f(x;θ)f(x;θ)的随机样本X––=(X1,...,Xn)TX_=(X1,...,Xn)T的观测值。我们希望用极大似然法估计θθ的函数g(θ)g(θ).
极大似然估计的基本思想是:在随机采样实验中,小概率事件基本不发生,而已经发生的应该是大概率事件。假定随机样本之间相互独立且分布相同;则x––x_发生的概率是L(θ;x––)=∏ni=1f(xi;θ)L(θ;x_)=∏i=1nf(xi;θ),称为似然函数。
极大似然估计就是要最大化已经发生的事件的概率L(θ;x––)L(θ;x_);另外,由于自然对数函数是单调递增的,所以最大化对数似然函数l(θ;x––)=ln(L(θ;x––))l(θ;x_)=ln(L(θ;x_))等价于最大化似然函数L(θ;x––)L(θ;x_)。
1.1 极大似然估计原理
若样本来自于概率分布f(x;θ∗),θ∗∈Θf(x;θ∗),θ∗∈Θ,则有:
证明:
Pθ[L(θ∗;X––)≥L(θ;X––)]=Pθ[L(θ;X––)L(θ∗;X––)≤1]=Pθ[1n∑ni=1ln(f(Xi;θ)f(Xi;θ∗))≤0]Pθ[L(θ∗;X_)≥L(θ;X_)]=Pθ[L(θ;X_)L(θ∗;X_)≤1]=Pθ[1n∑i=1nln(f(Xi;θ)f(Xi;θ∗))≤0]
由强大数定理和Jessen不等式有:
1n∑i=1nln(f(Xi;θ)f(Xi;θ∗))→a.s.Eθ(ln(f(Xi;θ)f(Xi;θ∗)))≤lnEθ(f(Xi;θ)f(Xi;θ∗))=01n∑i=1nln(f(Xi;θ)f(Xi;θ∗))→a.s.Eθ(ln(f(Xi;θ)f(Xi;θ∗)))≤lnEθ(f(Xi;θ)f(Xi;θ∗))=0
得证。
1.2 例子:贝努利分布的MLE
已知随机样本随机样本X––=(X1,...,Xn)TX_=(X1,...,Xn)T独立同分布与Bernoulli(θ)Bernoulli(θ),则对数似然函数为:
一阶条件为:
求解得到极大似然估计量θ^ML=∑ni=1xin=x¯θ^ML=∑i=1nxin=x¯.
二 EM算法
有些时候,可能存在一些隐藏随机变量无法直接观测(隐变量),这时候观测不到完整的数据。在求解不完整数据比较复杂,而求解完整数据比较简单的时候,可以采用EM准则。EM准则不直接求出MLE,而是确保可以收敛到MLE。EM准则经典模型有高斯混合模型,另一个经典的模型是受限玻尔兹曼机(RBM)
2.1 EM算法描述
设可观测的不完整变量为V––=(V1,...,Vn)TV_=(V1,...,Vn)T,隐藏的变量为H––=(H1,...,Hm)TH_=(H1,...,Hm)T,完整数据为X––=(V––,H––)X_=(V_,H_);X––;V––X_;V_的密度函数关系如下:
EM 准则的目标是基于不完整的数据的似然函数L(θ;V––)(=fv–(v–;θ))L(θ;V_)(=fv_(v_;θ))求出θθ的MLE:θ^=θ^(V––)θ^=θ^(V_).完整的数据的似然函数是L(θ;X––)=fX––(X––;θ)L(θ;X_)=fX_(X_;θ).
求解θ^θ^分两步,从初始化θ(0)θ(0)开始:
- E步:计算期望条件
Q(θ,θ(0))=Q(θ∣V––,θ(0))≡E[lnL(θ;X––)∣V––,θ(0)](2)(2)Q(θ,θ(0))=Q(θ∣V_,θ(0))≡E[lnL(θ;X_)∣V_,θ(0)]- M 步,极大化Q(θ)Q(θ).得到更新的θ(1)θ(1);
- 回到E步,θ(0)=θ(1)θ(0)=θ(1),继续迭代直到收敛。
进一步解释:
E 步:Q(θ,θ(0))Q(θ,θ(0))的积分表示如下:
E[lnL(θ;X––)∣V––,θ(0)]≡∫f(h∣v,θ(0))lnL(θ;X––)∣∣vdhE[lnL(θ;X_)∣V_,θ(0)]≡∫f(h∣v,θ(0))lnL(θ;X_)|vdh
M步有:Q(θ(j+1),θ(j))=maxθ∈ΘQ(θ,θ(j))≥Q(θ,θ(j))(3)(3)Q(θ(j+1),θ(j))=maxθ∈ΘQ(θ,θ(j))≥Q(θ,θ(j))
2.2 EM算法性质
2.2.1 Jenson不等式
离散形式
ΩΩ是有限集合{x1,x2,...xn}{x1,x2,...xn},f(x),g(x)f(x),g(x)是ΩΩ上的两个概率测度,ϕ:R→Rϕ:R→R是凹函数,则有:
ϕ(∑i=1nf(xi)g(xi))≥∑i=1n(ϕ(f(xi))g(xi))(4)(4)ϕ(∑i=1nf(xi)g(xi))≥∑i=1n(ϕ(f(xi))g(xi))
等式成立的充要条件是:f(xi)≡c,∀i∈1...nf(xi)≡c,∀i∈1...n
推论1:在给定概率分布f(x)f(x)的条件下,任意概率分布g(x)g(x),使得
∑i=1n(ϕ(f(xi)g(xi))g(xi))(5)(5)∑i=1n(ϕ(f(xi)g(xi))g(xi))取得最大值的充要条件是:
f(xi)=g(xi),∀i∈(1...n)f(xi)=g(xi),∀i∈(1...n)
证明:根据Jenson不等式,有
∑i=1n(ϕ(f(xi)g(xi))g(xi))≤ϕ(∑i=1n(f(xi)g(xi)g(xi)))=ϕ(1)∑i=1n(ϕ(f(xi)g(xi))g(xi))≤ϕ(∑i=1n(f(xi)g(xi)g(xi)))=ϕ(1)
可知(5)式的极大值是ϕ(1)ϕ(1),等式成立的充要条件是:f(xi)g(xi)=cf(xi)g(xi)=c
并且有∑i(f(xi)−cg(xi))=0⇒c=1∑i(f(xi)−cg(xi))=0⇒c=1
所以:f(xi)=g(xi),∀i∈(1...n)f(xi)=g(xi),∀i∈(1...n)
证毕。
连续形式
Ω⊆RnΩ⊆Rn,f(x),g(x)f(x),g(x)是ΩΩ上的两个概率测度,ϕ:R→Rϕ:R→R是凹函数,则有:
ϕ(∫x∈Ωf(x)g(x)dx)≥∫x∈Ωϕ(f(x))g(x)dx(4.1)(4.1)ϕ(∫x∈Ωf(x)g(x)dx)≥∫x∈Ωϕ(f(x))g(x)dx
等式成立的充要条件是:f(x)≡c,∀x∈Ωf(x)≡c,∀x∈Ω
定理 2:在给定概率密度f(x)f(x)的条件下,任意概率密度g(x)g(x),ϕ:R→Rϕ:R→R是凹函数,使得
J(g(x))≡∫x∈Ωϕ(f(x)g(x))g(x)dx(5.1)(5.1)J(g(x))≡∫x∈Ωϕ(f(x)g(x))g(x)dx取得最大值的充要条件是:
f(x)=g(x),∀x∈Ωf(x)=g(x),∀x∈Ω
2.2.2 可观察变量的似然函数
EM 算法不直最大化对数似然函数lnL(θ;V––)lnL(θ;V_),而是不断最大化它的下界:
2.2.3 E步的作用
假设若干步迭代后,得到θ(j)θ(j)计算
实际上有先要计算f(h∣v,θ(j))f(h∣v,θ(j)),然后跟下式:
得到:
可以看出,E步根据θ(j)θ(j)更新Q(θ,θ(j))Q(θ,θ(j)),实际上同时更新隐变量在给定隐变量的密度函数:f(h∣v,θ(j))∣v–f(h∣v,θ(j))∣v_
根据jesson不等式和(8)式,实际是在给定fX––(v–,h––;θ(j))∣∣vfX_(v_,h_;θ(j))|v的条件下,极大化l(θ(j))=L(θ(j);V––)l(θ(j))=L(θ(j);V_)
因此有:
2.2.4 M步的作用
M步是极大化Q(θ,θ(j−1))Q(θ,θ(j−1))得到θ(j)θ(j),即:
因此有:
结合(9)式有:
由此可以看出,EM每完成一次迭代,都有:L(θ(j);V––)≥L(θ(j−1);V––)L(θ(j);V_)≥L(θ(j−1);V_),EM算法通过迭不断增大L(θ(j);V––)L(θ(j);V_)的下界l(θ)l(θ)来估计参数θ^θ^;并不能保证L(θ^;V––)L(θ^;V_)达到极大值。