EM算法及其扩展:原理、收敛性与高斯混合模型应用
1. EM算法基础原理
EM算法(期望最大化算法)是一种用于估计含有隐变量的概率模型的最大似然估计的方法。在每次迭代中,它从点 $\theta^{(i)}$ 出发,找到下一个点 $\theta^{(i + 1)}$,使得函数 $B(\theta, \theta^{(i)})$ 和 $Q(\theta, \theta^{(i)})$ 达到最大。由于 $L(\theta) \geq B(\theta, \theta^{(i)})$,随着 $B(\theta, \theta^{(i)})$ 的增加,对数似然函数 $L(\theta)$ 在每次迭代中也会增加。不过,需要注意的是,EM算法并不能保证找到全局最优值。
1.1 EM算法在无监督学习中的应用
监督学习是从训练数据 ${(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)}$ 中学习条件概率分布 $P(Y|X)$,或者使用决策函数 $Y = f(X)$ 作为模型,应用于分类、回归和标注等任务。此时,训练数据中的每个样本点由输入和输出对组成。
而在某些情况下,训练数据只有输入而没有相应的输出,即 ${(x_1, \cdot), (x_2, \cdot), \cdots, (x_N, \cdot)}$,从这样的数据中学习模型被称为无监督学习问题。EM算法可以用于生成模型的无监督学习。生成模型由联合概率分布 $P(X, Y)$ 表示,无监督学习的训练数据可以看作是由联合概率分布生成的数据,其中 $X$ 是观测数据,$Y$ 是未观测数据。
1.2 EM算法的收敛性
EM算法的最大优点是其简单性和通用性。自然
超级会员免费看
订阅专栏 解锁全文

1357

被折叠的 条评论
为什么被折叠?



