机器学习中的EM算法与隐马尔可夫模型详解
1. EM算法的理论基础
EM(Expectation Maximization)算法旨在优化最大似然目标。给定数据集,由于我们不知道完整的数据似然,因此可以通过最大化观测数据在参数 Θ 下的对数似然来间接训练模型。然而,优化对数求和是难以处理的,所以EM算法使用Jensen不等式来优化该对数似然的一个下界。
设 是隐变量 H 的某个概率分布,根据Jensen不等式有:
通过定义 ,可以得到 是 的一个下界。下面介绍两种优化 的方法,这两种方法都会导向特定的算法。
1.1 EM与KL散度
可以将 重写,根据KL散度的性质(KL散度总是非负的,且当且仅当 时,KL(P,Q)为零), 和 之间的差异就是KL散度。为了使下界尽可能紧密,需要让KL散度尽可能小。当KL散度为零时,可以得到 的最佳估计。
如果模型参数 Θ 已知, 是根据模型在观测数据下隐变量 H 的分布,可以将其视为每个隐变量值 H 的软计数。在这种情况下,找到分布 对应于算法中的E步。然后可以进行M步,使用得到的 值来优化 。为了区分固定参数和待调整变量,我们明确地将迭代次数作为上标。将 代回相关公式,可以得到相应的结果。
1.2 使用数值优化推导EM算法
由于 是 的下界且包含两个变量,因此可以通过坐标上升法进行优化。坐标上升法在每次迭代时选择多元向量空间中的一个坐标(或一个变量)进行优化,同时保持其他变量固定。
- 期望步(E步) :E步的目标是找到一个最优分布 ,使得 最大化。这是一个有约束的优化问题,可以使用拉格朗
超级会员免费看
订阅专栏 解锁全文
3305

被折叠的 条评论
为什么被折叠?



