EM算法和GMM高斯混合模型

---------------七月在线机器学习笔记

通过极大似然估计详细推导EM

似然函数:找出与样本的分布最接近的概率分布模型,即找到可能分布模型的最佳参数\theta

假设分布为p(x|\theta),每个样本相互独立,则L=\Pi _ip(x_i|\theta)

为了简化求导,这里取对数似然函数:

                     l(\theta)=\sum_{i=1}^mlog\ \ p(x|\theta)                        (1)

但是,当给定的样本数据是不完整的或者某个特征是不确定的,

如:

在西单商场随机挑选100位顾客,测量这100 位顾客的身高:

若这100个样本服从正态分布N(μ,σ) ,试估计参数μ和σ。

若样本中存在男性和女性顾客,它们服从 N(μ1,σ1)和N(μ2,σ2)的分布,试估计 μ1,σ1,μ2,σ2 。

即,独立样本中含有隐随机变量 z(如,未知性别),这时对数似然函数变为

                            \large l(\theta)=\sum_{i=1}^mlog\sum_{z}p(x,z|\theta)                 (2)

       由于在对数函数里面又有加和,直接用求导解方程的办法直接求得极大值是很难的。

       我们的策略是建立L(θ)的下 界,并且求该下界的最大值;重复这个过 程,直到收敛到局部最大值。

       令\large Q_i是z的某一个分布,且    Q_i(z^{(i)})\geq0 \ \ and\ \ \sum_zQ_i(z^{(i)})=1

       则(2)式等于:

                  \large \begin{align*} \sum_ilog\sum_{z}p(x,z|\theta) &=\sum_ilog\sum_{z^{(i)}}p(x^{(i)},z^{(i)}|\theta) \\ &=\sum_ilog\sum_{z^{(i)}}Q_i(z^{(i)})\frac{p(x^{(i)},z^{(i)}|\theta) }{Q_i(z^{(i)})}\\ &\geq \sum_i\sum_{z^{(i)}}Q_i(z^{(i)}) log\frac{p(x^{(i)},z^{(i)}|\theta) }{Q_i(z^{(i)})} \end{align*}          (3)

                Jensen不等式满足Q_i\geq0 \ \ and\ \ \sum_zQ_i(z^{(i)})=1条件时,且E(x)=\sum x p(x),E(f(x))=\sum f(x)p(x),

             有  f(E(x))\leq E(f(x)),又log()函数为严格凹函数(二阶导<0)故取 ≥,即

                   \large \sum_ilog\sum_{z^{(i)}}Q_i(z^{(i)})\frac{p(x^{(i)},z^{(i)}|\theta) }{Q_i(z^{(i)})}=f(E(x))\geq E(f(x))=\sum_i\sum_{z^{(i)}}Q_i(z^{(i)}) log\frac{p(x^{(i)},z^{(i)}|\theta) }{Q_i(z^{(i)})}

           为了找到尽量接近的下界,使得等号成立的条件是

                                                \large \frac{p(x^{(i)},z^{(i)}|\theta) }{Q_i(z^{(i)})}=c

                                               s.t.\sum_iQ_i(z^{(i)})=1                           (4)

           即

                                    \large \begin{align*} p(x^{(i)},z^{(i)}|\theta) &=cQ_i(z^{(i)}) \\ \Rightarrow \sum_zp(x^{(i)},z^{(i)}|\theta)&=c\sum_zQ_i(z^{(i)}) \\ \Rightarrow \sum_zp(x^{(i)},z^{(i)}|\theta)&= c \end{align*}

                                   \large \begin{align*}\Rightarrow Q_i(z^{(i)}) &=\frac{p(x^{(i)},z^{(i)}|\theta)}{\sum_zp(x^{(i)},z|\theta)} \\ &= \frac{p(x^{(i)},z^{(i)}|\theta)}{p(x^{(i)}|\theta)}\\ &= p(z^{(i)}|x^{(i)},\theta) \end{align*}                          (5)

            至此,我们发现在固定参数θ后,使下界拉升的Q(z)的计算公式就是条件概率,解决了Q(z)如何选择的问题。这一步就是E步,建立L(θ)的下界。

EM算法整体框架

期望最大化(EM)算法是一种从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法

          

               就这样,Q(z)求出来代入到θ,θ求出来又反代回Q(z),如此不断的迭代,就可以得到使似然函数L(θ)最大化的参数θ了。  它已经被证明能够收敛到局部最优(即,它对初值参数敏感)

不严格地说法:Q_i(z^i)可以看作,样本数据i由组份z生成的概率,亦可以当做该组份在生成这个数据上所做的贡献。

坐标上升

    EM可以看作是J的坐标上升法,E-步固定\theta,优化Q,M-步固定Q优化\theta

从理论公式推导GMM

-----高斯混合模型GMM的参数估计:

     随机变量X是由K个高斯分布混合而成,取各个高斯分布的概率为φ1,φ2...φK,第i 个高斯分布的均值为μi,方差为Σi。若观测到随机变量X的一系列样本x1,x2...xn,试估计参数φ,μ,Σ。

E-step:

             

M-step:将多项分布和高斯分布的参数带入M-step目标函数

              

     对均值求偏导:

              

           令上式等0,解之得:

                   

    对方差求偏导等0,得

                  

   多项分布的参数

          对于\phi  ,删除M-step目标函数的常数项:

                   

         得:

               

   由于多项分布的概率和为1,建立拉格朗日方程

                  

                   注:这样求解的φi一定非负,所以,不用考虑φi≥0这个条件

            求偏导,等于0,得

                   

              

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值