概率模型有时既含有观测变量(observable variable),又含有隐变量(latent variable)。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计或贝叶斯估计来计算模型参数。但是,当模型含有隐变量时,就不能简单地使用以上估计方法,而EM算法就是针对含有隐变量的概率模型参数的极大似然估计法。
一般地,用X表示可观测随机变量的数据,
从掷硬币实验说起
给定两枚硬币A和
选择一枚硬币,并且知道具体是哪一枚,然后用选中的硬币掷十次,记录结果。因此,总共进行了50次掷硬币的实验。如下图所示
现在,引入两个随机变量X={
X1,X2,X3,X4,X5}和Z={
Z1,Z2,Z3,Z4,Z5},其中Xi∈{
0,1,⋯,10}表示第i次实验硬币正面朝上的次数,
事实上,上述的估计方式就是统计学上的最大似然估计。
现在考虑一个更有挑战性的参数估计问题。只给定硬币出现正面的次数,而不给定是由哪一枚硬币掷出的,即Z为隐含变量。因此,该问题就转化为不完全数据的参数估计问题。此时,由于不知道具体是哪一枚硬币,所以无法通过直接计算硬币出现正面的次数来估计
凸函数
定义1 定义在区间I=[a,b]上的实函数f,如果对于
则称函数f为凸函数。其几何解释如下图所示
定义2 如果函数
定理1 如果函数
定理2(Jensen inequality) f为区间
证明: 使用数学归纳法证明
- 当n=1时,(2)式显然成立,并取得等号。
- 当n=2时,即为凸函数的定义。
- 假设当n=n时(2)式成立,则