机器学习之期望最大化算法(Expectation Maximization, EM)

最新推荐文章于 2025-04-02 13:57:26 发布

天真的和感伤的想象家

最新推荐文章于 2025-04-02 13:57:26 发布

阅读量1.9k

点赞数 1

分类专栏： Machine Learning 文章标签：算法机器学习 python 人工智能数学建模

本文链接：https://blog.youkuaiyun.com/deepsprings/article/details/106490066

版权

本文深入探讨了期望最大化算法(EM算法)的基本概念，从三硬币模型出发，逐步过渡到高斯混合模型，详细解释了EM算法的迭代过程及在参数估计中的应用。文章还介绍了EM算法的主要思想，包括其迭代逼近极大似然函数的机制，以及在聚类分析等领域的实际应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

期望最大化算法(Expectation Maximization, EM)

期望最大化算法(Expectation Maximization, EM)

1. 基本内容

用于含有隐变量的概率模型参数的极大似然估计
EM 是个一般方法，而不是某个具体模型
知道有哪些分布模型，但不知道每个样本具体属于哪个分布

2. 从三硬币模型

2.1 问题提出

A, B, C 为三枚硬币，正面朝上的概率假设分别为 $\pi,p,q$ ，进行投掷硬币实验：先投掷 A 硬币，结果用 x 表示，如果朝上(x=1)，投掷 B 硬币，否则(x=0)，投掷 C 硬币。最终结果记为 y，正面 y=1, 反面 y=0

假设经过 n 次实验，得到结果 $y_1, y_2, \cdots, y_n$ ，如何从极大似然估计的角度估计参数？

2.2 解决方案

流程如下图所示

可以得到联合概率分布：

	y=1	y=0
from B	$\pi p$	$\pi (1-p)$
from C	$(1-\pi)q$	$(1-\pi) (1-q)$
total	$\pi p+(1-\pi)q$	$\pi(1-p)+(1-\pi)(1-q)$

total其实就是每个结果 $y_i(0\ or\ 1)$ 的密度，对于两种结果，可以统一写成：
$\pi p^{y_i}(1-p)^{1-y_i}+(1-\pi)q^{y_i}(1-q)^{1-y_i}$
那么转化为极大似然估计问题，就是求解
$\mathop{max}\limits_{w,p,q} \prod\limits_{i=1}^n[\pi p^{y_i}(1-p)^{1-y_i}+(1-\pi)q^{y_i}(1-q)^{1-y_i}]$
或者可以写成
$\mathop{max}\limits_{w,p,q}\prod\limits_{i=1}^n [\pi p+(1-\pi)p]^{x_i}[\pi(1-p)+(1-\pi)(1-q)]^{1-x_i}$
对其进行求解，可以得到
$\pi p+(1-\pi)q = \frac{k}{n} \\ p(y=0) = \pi(1-p)+(1-\pi)(1-q) = \frac{n-k}{n}$
其中，k 为结果中 y=1 的个数，n 为总实验次数。两式其实是等价的，可以写作为一个关系式
$\pi p + (1-\pi)q = \frac{k}{n}$
其中， $\pi,p,q$ 三个为待估计参数。方程数小于参数个数（静不定），理论上来讲，只要符合该关系式的参数值，就是一个合理估计。

该问题比较简单，可以求出解析解，但对于一般问题来说，极大似然函数是得不到解析解的。下面从迭代的角度来逼近这个极大似然的解。

2.3 换个角度

考虑结果的所有情况，获得条件概率：
$\begin{aligned} P(from B | y=1) &= \frac{\pi p}{\pi p + (1-\pi)q} = a \\ P(from C | y=1) &= \frac{(1-\pi)q}{\pi p + (1-\pi)q} = b\\ P(from B | y=0) &= \frac{\pi (1-p)}{\pi(1-p)+(1-\pi)(1-q)} = c \\ P(from C | y=0) &= \frac{(1-\pi)(1-q)}{\pi(1-p)+(1-\pi)(1-q)} = d \end{aligned}$
也就是说，对与一个实验结果 $y_i$ ，有上面四种情况（严格来说是两种，因为结果 $y_i=0,\ 1$ 是知道的），为了清晰起见，针对每种个实验结果 $y_i$ 可以列出下面的表格