1. 前言
高斯混合模型是使用高斯分布对原始数据进行估计,其中高斯函数的均值μ\muμ和方差σ\sigmaσ以及各个高斯函数分量占的比例α\alphaα这些参数是未知的。对于它们的求解是通过EM算法实现的。
高斯混合模型可以表述为如下的概率分布模型:
P(y∣θ)=∑k=1Kαkϕ(y∣θk)P(y|\theta)=\sum_{k=1}^{K}\alpha_k\phi(y|\theta_k)P(y∣θ)=k=1∑Kαkϕ(y∣θk)
其中,αk\alpha_kαk是系数,αk≥0\alpha_k\ge0αk≥0,∑k=1Kαk=1\sum_{k=1}^K\alpha_k=1∑k=1Kαk=1;ϕ(y∣θk)\phi(y|\theta_k)ϕ(y∣θk)是高斯分布密度,θk=(μk,σk2)\theta_k=(\mu_k,\sigma_k^2)θk=(μk,σk2)
ϕ(y∣θk)=12πσkexp(−(y−μk)22σk2)\phi(y|\theta_k)=\frac{1}{\sqrt{2\pi}\sigma_k}exp(-\frac{(y-\mu_k)^2}{2\sigma_k^2})ϕ(y∣θk)=2πσk1exp(−2σk2(y−μk)2)
称为第K个分模型。
2. 推导
2.1 确定隐藏参数
假设观测数据y1,y2,…,yNy_1,y_2,\dots,y_Ny1,y2,…,yN是由高斯混合模型生成
P(y∣θ)=∑k=1Kαkϕ(y∣θk)P(y|\theta)=\sum_{k=1}^{K}\alpha_k\phi(y|\theta_k)P(y∣θ)=k=1∑Kαkϕ(y∣θk)
其中,参数θ=(α1,α2,…,αk;θ1,θ2,…,θk)\theta=(\alpha_1,\alpha_2,\dots,\alpha_k;\theta_1,\theta_2,\dots,\theta_k)θ=(α1,α2,…,αk;θ1,θ2,…,θk)。是高斯混合模型中直观需要求解的未知变量。但是高斯混合模型中就只有这两类变量是未知的么?
对于观测数据yjy_jyj,j=1,2,…,Nj=1,2,\dots,Nj=1,2,…,N,是这样产生的:首先依据概率αk\alpha_kαk选择第kkk个高斯分布模型ϕ(y∣θk)\phi(y|\theta_k)ϕ(y∣θk);然后依据第kkk个分模型的概率分布ϕ(y∣θk)\phi(y|\theta_k)ϕ(y∣θk)生成观测数据yjy_jyj。这个时候观测数据yjy_jyj,j=1,2,…,Nj=1,2,\dots,Nj=1,