EM算法及例题详解

一、简介

EM(Expectation-Maximum)算法也称期望最大化算法,曾入选“数据挖掘十大算法”中,可见EM算法在机器学习、数据挖掘中的影响力。EM算法是最常见的隐变量估计方法,在机器学习中有极为广泛的用途,例如常被用来学习高斯混合模型(Gaussian mixture model,简称GMM)的参数;隐式马尔科夫算法(HMM)、LDA主题模型的变分推断等等。本文就对EM算法的原理做一个详细的总结。

二、EM算法推导

一般的用Y=(y1, y2,…, yn)表示观测数据,用H=(h1, h2,…,hn)表示隐变量数据,用Z(z1, z2, … , zm)表示每个hi的所有可能取值的集合,所以Z可以称之为隐变量分布,因为每个hj都来自Z。
观测数据Y是我们可以直接看见并使用的,但是隐藏数据H我们却不知道,所以我们只能求观测数据Y的对数似然函数log P(Y;θ)的极大化来求最优参数θ。

##########分析一下观测数据Y、隐变量数据H和隐变量分布Z之间的关系###########
隐变量数据H和观测数据Y之间的关系如下:
观测数据 yj 在隐变量数据 hj 的基础上得到,其中hj∈Z。最重要的是观测数据Y可知,隐变量分布Z也可知,但是隐变量数据H不可知。

这里举一个隐变量数据和观测数据的例子,假设有3枚硬币A, B, C,我们先抛硬币A,根据硬币A的结果决定接下来抛硬币B还是硬币C。如果硬币A正面朝上,我们就抛硬币B,若硬币B正面朝上记yj=1,若硬币B反面朝上记yj=0;如果硬币A反面朝上,我们就抛硬币C,若硬币C正面朝上记yj=1,若硬币C反面朝上记yj=0。假设进行5次上述试验,我们得到 观测数据Y=(1, 0, 0, 0, 1),如果用H=(h1, h2, h3, h4, h5)表示隐变量数据,那么每个hi的所有可能取值的集合Z=(A正,A反),所以H有25 种可能,隐变量数据可以是H=(A正,A正,A反,A正,A反) ,这只是25 中的一种。

#################################结束################################

先来求一下观测数据Y=(y1, y2,…, yn)的似然函数:
在这里插入图片描述
公式的前半部分用到了联合概率与边缘概率的转换,公式的后半部分则是根据具体的数据来展开。
所以观测数据Y的对数似然函数log P(

评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值