---------------七月在线机器学习笔记
通过极大似然估计详细推导EM
似然函数:找出与样本的分布最接近的概率分布模型,即找到可能分布模型的最佳参数
假设分布为,每个样本相互独立,则
为了简化求导,这里取对数似然函数:
(1)
但是,当给定的样本数据是不完整的或者某个特征是不确定的,
如:
在西单商场随机挑选100位顾客,测量这100 位顾客的身高:
若这100个样本服从正态分布N(μ,σ) ,试估计参数μ和σ。
若样本中存在男性和女性顾客,它们服从 N(μ1,σ1)和N(μ2,σ2)的分布,试估计 μ1,σ1,μ2,σ2 。
即,独立样本中含有隐随机变量 z(如,未知性别),这时对数似然函数变为
(2)
由于在对数函数里面又有加和,直接用求导解方程的办法直接求得极大值是很难的。
我们的策略是建立L(θ)的下 界,并且求该下界的最大值;重复这个过 程,直到收敛到局部最大值。
令是z的某一个分布,且
则(2)式等于:
(3)
Jensen不等式满足条件时,且
,
有 ,又log()函数为严格凹函数(二阶导<0)故取 ≥,即
为了找到尽量接近的下界,使得等号成立的条件是
(4)
即
(5)
至此,我们发现在固定参数θ后,使下界拉升的Q(z)的计算公式就是条件概率,解决了Q(z)如何选择的问题。这一步就是E步,建立L(θ)的下界。
EM算法整体框架
期望最大化(EM)算法是一种从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法
就这样,Q(z)求出来代入到θ,θ求出来又反代回Q(z),如此不断的迭代,就可以得到使似然函数L(θ)最大化的参数θ了。 它已经被证明能够收敛到局部最优(即,它对初值参数敏感)
不严格地说法:Q_i(z^i)可以看作,样本数据i由组份z生成的概率,亦可以当做该组份在生成这个数据上所做的贡献。
坐标上升
EM可以看作是J的坐标上升法,E-步固定,优化Q,M-步固定Q优化
从理论公式推导GMM
-----高斯混合模型GMM的参数估计:
随机变量X是由K个高斯分布混合而成,取各个高斯分布的概率为φ1,φ2...φK,第i 个高斯分布的均值为μi,方差为Σi。若观测到随机变量X的一系列样本x1,x2...xn,试估计参数φ,μ,Σ。
E-step:
M-step:将多项分布和高斯分布的参数带入M-step目标函数
对均值求偏导:
令上式等0,解之得:
对方差求偏导等0,得
多项分布的参数
对于 ,删除M-step目标函数的常数项:
得:
由于多项分布的概率和为1,建立拉格朗日方程
注:这样求解的φi一定非负,所以,不用考虑φi≥0这个条件
求偏导,等于0,得