13、机器学习中的EM算法与隐马尔可夫模型详解

最新推荐文章于 2025-10-13 23:54:15 发布

落叶知秋263

最新推荐文章于 2025-10-13 23:54:15 发布

阅读量41

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习视角下的NLP 文章标签： EM算法 Jensen不等式 KL散度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ansible6ops/article/details/151094752

机器学习视角下的NLP 专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的EM算法与隐马尔可夫模型详解

1. EM算法的理论基础

EM（Expectation Maximization）算法旨在优化最大似然目标。给定数据集，由于我们不知道完整的数据似然，因此可以通过最大化观测数据在参数 Θ 下的对数似然来间接训练模型。然而，优化对数求和是难以处理的，所以EM算法使用Jensen不等式来优化该对数似然的一个下界。

设是隐变量 H 的某个概率分布，根据Jensen不等式有：

通过定义，可以得到是的一个下界。下面介绍两种优化的方法，这两种方法都会导向特定的算法。

1.1 EM与KL散度

可以将重写，根据KL散度的性质（KL散度总是非负的，且当且仅当时，KL(P,Q)为零），和之间的差异就是KL散度。为了使下界尽可能紧密，需要让KL散度尽可能小。当KL散度为零时，可以得到的最佳估计。

如果模型参数 Θ 已知，是根据模型在观测数据下隐变量 H 的分布，可以将其视为每个隐变量值 H 的软计数。在这种情况下，找到分布对应于算法中的E步。然后可以进行M步，使用得到的值来优化。为了区分固定参数和待调整变量，我们明确地将迭代次数作为上标。将代回相关公式，可以得到相应的结果。

1.2 使用数值优化推导EM算法

由于是的下界且包含两个变量，因此可以通过坐标上升法进行优化。坐标上升法在每次迭代时选择多元向量空间中的一个坐标（或一个变量）进行优化，同时保持其他变量固定。

期望步（E步） ：E步的目标是找到一个最优分布，使得最大化。这是一个有约束的优化问题，可以使用拉格朗

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。