高斯混合模型(GMM Gaussian Mixture Model)

高斯混合模型(GMM)是一种常用的聚类算法,它结合多个高斯分布来建模数据。文章介绍了高斯分布及其性质,接着详细阐述了GMM的定义、参数估计过程,特别是通过期望最大化(EM)算法进行参数更新的步骤。

高斯混合模型是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大算法(EM)进行训练

什么是高斯分布

高斯分布有时也被称作正态分布,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面都有着重大的影响。

若随机变量X服从一个数学期望为μμμ、标准方差为σ2σ^2σ2的高斯分布,记作:
X N(μ,σ2)X~N(μ,σ^2)X N(μ,σ2)
则其概率密度函数为:
在这里插入图片描述
在这里插入图片描述
公式中含有2个参数,参数μμμ表示均值,参数σσσ表示标准差,均值决定了其位置,标准差决定了分布的幅度。

有了概率密度函数,在已知参数μ,σμ,σμσ的前提下,输入变量x,可以获得其相对应的概率密度。

高斯混合模型

定义:高斯混合模型是指具有如下形式的概率分布模型:
P(y∣θ)=∑k=1Kαkφ(y∣θk)P(y|θ)=\displaystyle\sum_{k=1}^{K}α_kφ(y|θ_k)P(yθ)=k=1Kαkφ(yθk) (1)

其中,αkα_kαk是系数,且αk≥0,∑k=1Kαk=1α_k≥0,\displaystyle\sum_{k=1}^{K}α_k=1αk0k=1Kαk=1;φ(y∣θk)φ(y|θ_k)φ(yθk)是高斯分布密度函数,其中θk=(μk,σk)θ_k=(μ_k,σ_k)θk=(μkσk)

φ(y∣θk)=12πσkexp(−(y−μk)22σk2)φ(y|θ_k)=\frac{1}{\sqrt{2π}σ_k}exp(-\frac{(y-μ_k)^2}{2σ_k^{2}})φ(yθk)=2π σk1exp(2σk2(yμk)2) (2)

称为第k个分模型。
一般混合模型可以由任意概率分布密度函数代替2中的高斯密度函数,现在只介绍最常用的高斯混合模型。

高斯混合模型参数估计的EM算法

假设观测数据y1,y2……yNy_1,y_2……y_Ny1,y2yN由高斯混合模型生成,
P(y∣θ)=∑k=1Kαkφ(y∣θk)P(y|θ)=\displaystyle\sum_{k=1}^{K}α_kφ(y|θ_k)P(yθ)=k=1Kαkφ(yθk)

其中θ=(α1,α2…αK;θ1,θ2…θK)θ=(α_1,α_2…α_K;θ_1,θ_2…θ_K)θ=(α1,α2αKθ1,θ2θK),我们用EM算法估计高斯混合模型的参数θθθ

1明确隐变量,写出完全数据的对数似然函数

可以设想观测数据yjy_jyj,j=1,2……N,是这样产生的:
1)首先依概率αkα_kαk选择第k个高斯分布分模型φ(y∣θk)φ(y|θ_k)φ(y

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值