13.3 假设数据由混合专家(mixture of experts
)模型生成,即数据是基于k个成分混合而得的概率密度生成:
其中, θ={ θ1,θ2,…,θk} 是模型参数, p(x∣θi) 是第 i 个混合成分的概率密度,混合系数
首先,我们假定:
- 数据X 包含
M=l+u 个样本:X={ xj},j=1,…,M- 所有样本中共有|C|个类别:cj表示样本的类别,cj∈C
- 混合模型含有N个混合成分,
{mj=i},i=1,…,N 表示样本xj可能的混合成分,θi表示对应混合成分的模型参数,则相应模型可以表示为f(xj∣θi)=p(xj∣mj=i,θi)=p(xj∣θi)
则与书上公式(13.4)类似,在此处:
接下来介绍一下题目中所说的 每个类别可包含多个混合成分的混合模型的具体表示。
首先,我们知道:
p(mj=i∣xj)=αi⋅p(xj∣θi)∑i=1Nαi⋅p(xj∣θi)(2)
根据(D. J. Miller and H. S. Uyar, 1996
)的观点,主要有两种混合方法:划分混合模型(The “Partitioned” Mixture Model, PM):
混合组分与各个类别具有硬划分的关系,即Mi∈Ck,其中Mi代表混合组分i,也就是说各个类别是由特定的混合组分组合而成,Ck 代表类别k具有的混合组分形成的集合,混合模型后验概率为:
p(cj=k∣xj)=∑i=1∧Mi∈CkNαi⋅p(xj∣θi)∑i=1Nαi⋅p(xj∣θi)(3) 广义混合模型(The Generalized Mixture Model, GM):
每个混合组分i∈{ 1,…,K}都有可能是形成某个类别k的一个混合成分,定义,其中第二项成立是因为 βcj∣mj 与具体的 xj 取值无关。在此基础上可知,混合模型后验概率为:p(cj∣mj,xj)=p(cj∣mj)=βcj∣mj(4)
p(cj∣xj)=∑i=1N(αi⋅p(xj∣θi))βcj∣i∑i=1Nαi⋅p(xj∣θi)(5)
显然,令 GM中真正属于 cj 的混合成分 i 均为βcj∣i=1 ,其他 βcj∣i=0 ,则此时广义混合模型退化为 PM。
在这里,我们采用GM ,采用高斯分布作为混合成分,来推导EM
算法的更新参数。
显然,此时:
则 (1) 变为: