EM算法

EM算法是一种处理含有隐含变量的模型参数估计方法,常用于高斯混合模型(GMM)。GMM通过组合多个高斯分布来建模数据,解决K-means无法提供后验概率的问题。在EM算法中,E-step计算每个样本属于每个簇的概率,M-step更新簇的参数,如均值和方差,直至收敛。EM算法与K-means的区别在于,EM允许样本属于多个簇(软决策),而K-means则将样本分配给单个簇(硬决策)。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

EM算法

一.高斯混合模型(GMM)

1.GMM简介

在之前的聚类算法当中,最为常用的算法是K-means算法,但是经典的聚类算法K-means也有它固有的一些缺陷,比如说它虽然能把未标记的样本进行分类,但是它无法给出某个样本属于该簇的后验概率。

什么是后验概率?本质上说,这个是个条件概率。它与先验概率相对应。先验概率是指:事情还没有发生,根据以往的经验来判断事情发生的概率,比如说,我根据以往的气象现象,推断出大连市降雨的概率。而后验概率则是:事情已经发生了,有多中原因,判断事情的发生是由哪一种原因引起的。

如何解决没有后验概率的问题呢?这个时候,高斯混合模型就应运而生了。

我们假设有这样的应用场景:人有男女两种性别(奇葩的其他咱们姑且不论)。假设我们有一堆样本数据,共10000条,我们不知道哪些是男,哪些是女。但是,如果我们知道男,女两个群体的身高大体不同,男性较高,女性较矮,并且身高分布分别服从于两种不同的正态分布N(μ 1 ,σ 1 )和N(μ 2 ,σ 2 )的分布,试估计μ 1 ,σ 1 ,μ 2 ,σ 2(正态分布还有一个名字:高斯分布。这也是该模型称为高斯混合模型的原因),我们是否有办法把这两组数据进行分离,进而区分出男女呢?(典型的,只有数据,没有标签的场景,属于聚类问题)

如下图所示:这个图的右上角标明了男女分别服从的高斯分布的参数
在这里插入图片描述

2.高斯函数的极大似然估计

这个问题对于学过大学本科概率论的童鞋来说,并不难。我们直接把步骤给贴出来:

首先,把概率密度函数列出来:
f ( x ) = 1 2 π δ e − ( x − μ ) 2 2 δ 2 f(x) = \frac{1}{\sqrt{2\pi}\delta}e^-{\frac{(x-\mu)^2}{2\delta^2}} f(x)=2π δ1e2δ2(x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值