基于HBIC准则的混合PPCA的有效模型选择

高效模型选择：混合MPCA的HBIC算法及其应用

最新推荐文章于 2021-11-15 20:25:33 发布

原创最新推荐文章于 2021-11-15 20:25:33 发布 · 791 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#概率论 #机器学习 #r语言

数据科学专栏收录该内容

22 篇文章

订阅专栏

本文介绍了一种基于Hierarchical Bayesian Information Criterion (H-BIC)的有效模型选择方法，针对混合Probabilistic PCA (MPCA)模型。研究了两阶段和一阶段方法的局限性，提出了一种改进的EM算法，结合最大后验估计，解决了不同局部子空间维度问题。H-BIC作为模型选择标准，避免了共同子空间假设，并在实验部分展示了其在实际数据集上的优势。

基于HBIC准则的混合PPCA的有效模型选择

1 引言
2 Mixtures of probabilistic PCA(MPCA)
- 2.1 EM 算法
3 模型选择方法
- 3.1 two-stage methods
- 3.2 one-stage 方法
4 Hierarchical BIC(H-BIC)
- 4.1 BIC和MML的区别和联系
5 两个算法
6 实验部分（详见相关论文）

注意：本博客来源于Efficient Model Selection for Mixtures of Probabilistic PCA via Hierarchical BIC,仅用于学习，转载请注明出处！

1 引言

混合MPCA模型提供了一种结合局部PCAs的主要的方法。在MPCA中，聚类和降维是同时实现的，并且参数估计可以很容易通过流行的EM算法被极大似然估计和最大后验估计方法得到。此外，在高维数据的密度建模中，MPCA提供了比高斯混合模型更显著的优势，因为它能够在过拟合的full GMM和欠拟合的diagonal/spheral GMM中提供一种合理的权衡。

尽管MPCA有大的吸引力，但它仍然有一个挑战性的问题，那就是混合成分的数量 $m$ 的确定和每个成分的子空间维度 $k_j$ 的确定。为此，通常采用两阶段的方法来确定：stage1主要对一系列候选模型进行参数估计，stage2基于一种模型选择标准来选择最佳的模型。在此，通常都假定共同- $k$ -MPCA，也就是说假定每一个成分的子空间维度 $k_j=k$ ,然后在所有可能的集合 ${m,k\}$ 所对应的一系列模型中进行穷举，然后基于模型选择标准选择最佳模型。如果没有共同- $k$ 的假定，在一个更大的集合 ${m,k_j\}$ 中搜索会更加耗时。

直观上来看，不同的成分有不同的局部子空间维度 $k_j$ 是非常自然的，事实上，在图像处理中，通过仔细分配 $k_j$ ，图像压缩的质量将会显著提高。在手写字符识别中，带有不同的 $k_j$ 的成分的MPCA与共同- $k$ 模型相比将会获得更高的检验似然和更低的分类错误率。也有很多尝试来解决不同的局部子空间维度 $k_j$ 的问题。例如：“Resolution-based complexity control for gaussian mixture”一文中，限制所有分量的噪声方差 $\sigma_j^2=\sigma^2$ ,而每个分量的子空间维度 $k_j$ 是由大于 $\sigma^2$ 的协方差矩阵的特征值的个数所决定的。除了这个限制，最优的 $\sigma^2$ 是通过验证数据集来决定的。在PCA中的经典的方法是保证方差比大于一个阈值，这也在MPCA中被采用。缺点是 $k_j$ 的决定和参数估计是通过不同的损失函数来实现的。

为了有效地学习GMM，Figueiredo and Jain 提出了一种one-stage的方法，成为FJ算法。不像两阶段方法，此算法把把参数估计和模型选择集合到一个算法中。此外，在初始化上，此算法比标准的EM算法有更少的敏感性。可是，对于MPCA的FJ算法的应用有两个局限：其一，只有在局部子空间维度 $k_j$ 给定时才能应用到MPCA模型上；其二，在我们的实验中，分量消除的步骤使用的约束对一些基础的真实数据集来说都太强了。

变分贝叶斯方法被建议用来拟合MPCA模型。不像ML/MAP方法，VB保持模型参数的分布并且它的下界自然地作为模型选择的标准，在MPCA的VB处理中，不同的子空间的 $k_j$ 可以通过自动相关确定（automatic relemance determination ,ARD）自动的确定。为了进一步自动地确定混合成分的数量 $m$ ，一种birth/death的操作被融入VBMPCA方法中或者是采用一种非参数的处理方法。这样的方法导致参数估计和模型选择是在同一个算法中，可是，局部子空间 $k_j$ 的决定在这些基于VB的方法中都纯粹依赖于ARD方法，但它的结果对于预先设定的最大子空间维度的值是敏感的。

为了有效地学习MPCA，我们采用一种有效的模型选择标准称为HBIC，理论上，HBIC是VB下界的大样本极限，并且BIC是HBIC的进一步近似，为了有效地基于HBIC来学习MPCA，提出了两种算法：一种两阶段算法的变种和一种一阶段算法的变种。这两种算法都消除了common- $k$ 的限制，并且同时进行参数估计和模型选择，此外，one-stage算法也克服了FJ算法的两种局限。

2 Mixtures of probabilistic PCA(MPCA)

在MPCA模型的框架下，每一个的 $d$ 维的数据向量 $\mathbf{x}_{n}$ 都是i.i.d的样本 $\mathbf{X}=\left\{\mathbf{x}_{n}\right\}_{n=1}^{N}$ ，它的生成需要两步。第一，基于在约束 $\sum_{j=1}^{m} \pi_{j}=1$ 下的分布 $p(j)=\pi_j,j = 1,\cdots,m$ 生成一个自然数 $j$ 。第二，给定自然数 $j$ ， $\mathbf{x}_{n}$ 由下文中限制性因子分析模型生成：

$\begin{array}{l} \mathbf{x}_{n} \mid j=\mathbf{A}_{j} \mathbf{y}_{n j}+\boldsymbol{\mu}_{j}+\boldsymbol{\epsilon}_{n j} \\ \mathbf{y}_{n j} \sim \mathcal{N}(\mathbf{0}, \mathbf{I}), \quad \boldsymbol{\epsilon}_{n j} \sim \mathcal{N}\left(\mathbf{0}, \sigma_{j}^{2} \mathbf{I}\right) \end{array}$

$\mathbf{I}$ 表示单位阵。 $\boldsymbol{\mu}_{j}$ 表示 $d$ 维的均值向量， $\mathbf{A}_{j}$ 是一个 $\times k_j$ 的因子载荷阵， $\mathbf{y}_{n j}$ 是一个独立的 $k_j$ 维的潜在因子向量， $\sigma_{j}^{2}$ 是第 $j$ 个分量的噪声方差。很明显，这是 $m$ 个PPCA子模型的混合，其中混合比例为 $\pi_j's$ 。不想传统的因子分析，假定 $\boldsymbol{\epsilon}_{n j}$ 是对角协方差，MPCA假定每一个分量有一个标量协方差。

定义： $\boldsymbol{\theta} \equiv\left\{\pi_{j}, \boldsymbol{\theta}_{j} ; j=1, \ldots, m\right\}, \boldsymbol{\theta}_{j}=\left(\mathbf{A}_{j}, \boldsymbol{\mu}_{j}, \sigma_{j}^{2}\right)$

$\Sigma_{j}=\mathbf{A}_{j} \mathbf{A}_{j}^{\prime}+\sigma_{j}^{2} \mathbf{I}$

在MPCA模型下，观测数据的对数似然为：
$\mathcal{L}(\mathbf{X} \mid \boldsymbol{\theta})=\sum_{n=1}^{N} \log \left[\sum_{j=1}^{m} \pi_{j} p\left(\mathbf{x}_{n} \mid \boldsymbol{\theta}_{j}\right)\right]$
其中，
$\begin{aligned} p\left(\mathbf{x}_{n} \mid \boldsymbol{\theta}_{j}\right)=&(2 \pi)^{-d / 2}\left|\Sigma_{j}\right|^{-1 / 2} \\ & \cdot \exp \left\{-\frac{1}{2}\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{j}\right)^{T} \Sigma_{j}^{-1}\left(\mathbf{x}_{n}-\mu_{j}\right)\right\} \end{aligned}$

ML估计 $\hat{\boldsymbol{\theta} }$ 定义为：
$\hat{\boldsymbol{\theta}}=\underset{\boldsymbol{\theta}}{\arg \max }\{\mathcal{L}(\mathbf{X} \mid \boldsymbol{\theta})\} .$
如果能获得参数 $\boldsymbol{\theta}$ 的先验分布 $p(\boldsymbol{\theta})$ ，然后MAP估计 $\hat{\boldsymbol{\theta} }$ 定义为：

$\hat{\boldsymbol{\theta}}=\underset{\boldsymbol{\theta}}{\arg \max }\{\mathcal{L}(\mathbf{X} \mid \boldsymbol{\theta})+\log p(\boldsymbol{\theta})\} .$

2.1 EM 算法

给定分量的数量 $m$ 和子空间维度 $\mathbf{k}=\left(k_{1}, k_{2}, \cdots, k_{m}\right)$ ，MPCA中的参数 $\boldsymbol{\theta}$ 可以通过EM算法求解。

考虑完全数据 $(\mathbf{X}, \mathbf{Z})=\left\{\mathbf{x}_{n}, \mathbf{z}_{n}\right\}_{n=1}^{N}$ ，其中 $\mathbf{z}_{n} = (z_{n1},\cdots,z_{nM})$ , $z_{nj}$ 是一个示性变量如果 $\mathbf{x}_{n}$ 来自分量 $j$ ,则 $z_{nj}$ 为1，其他为0.

完全数据似然函数可表达为：

$\mathcal{L}_{c}(\mathbf{X}, \mathbf{Z} \mid \boldsymbol{\theta})=\sum_{n=1}^{N} \sum_{j=1}^{m} z_{n j} \log \left(\pi_{j} p\left(\mathbf{x}_{n} \mid \boldsymbol{\theta}_{j}\right)\right)$

E-step:在给定 $\mathbf{X}$ 和 $\boldsymbol{\theta}^{(t)}$ 时计算 $\mathcal{L}_{c}$ 的期望：
$Q\left(\boldsymbol{\theta} \mid \boldsymbol{\theta}^{(t)}\right)=\sum_{j=1}^{m} \mathrm{II}_{j}\left(\boldsymbol{\theta}_{j} \mid \boldsymbol{\theta}^{(t)}\right)$
其中，
$\mathrm{II}_{j}\left(\boldsymbol{\theta}_{j} \mid \boldsymbol{\theta}^{(t)}\right)=\sum_{n-1}^{N} \mathbb{E}\left(z_{n j}\right) \log \left(\pi_{j} p\left(\mathbf{x}_{n} \mid \boldsymbol{\theta}_{j}\right)\right)$
$\mathrm{II}_{j}$ 仅仅依赖第 $j$ 个分量的 $\left(\pi_{j}, \boldsymbol{\theta}_{j}\right)$ ，定义期望 $R_{n j}\left(\boldsymbol{\theta}^{(t)}\right) \triangleq \mathbb{E}\left(z_{n j}\right)$ 是数据点 $\mathbf{x}_{n}$ 属于第 $j$ 个分量的后验概率：
$R_{n j}\left(\boldsymbol{\theta}^{(t)}\right)=P\left(z_{n j}=1 \mid \boldsymbol{\theta}^{(t)}\right)=\frac{\pi_{j}^{(t)} p\left(\mathbf{x}_{n} \mid \boldsymbol{\theta}_{j}^{(t)}\right)}{\sum_{k=1}^{m} \pi_{k}^{(t)} p\left(\mathbf{x}_{n} \mid \boldsymbol{\theta}_{k}^{(t)}\right)}$
此外，我们定义一个局部样本协方差矩阵：
$\mathbf{S}_{j}^{(t+1)}=\frac{1}{N \pi_{j}^{(t+1)}} \sum_{n=1}^{N} R_{n j}\left(\boldsymbol{\theta}^{(t)}\right)\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{j}^{(t+1)}\right)\left(\mathbf{x}_{n}-\boldsymbol{\mu}_{j}^{(t+1)}\right)^{\prime}$

M-step: 对于ML估计，在约束 $\sum_{j=1}^{m} \pi_{j}=1$ 下关于 $\boldsymbol{\theta}$ 最大化Q函数产生如下更新方程：

$\begin{array}{c} \pi_{j}^{(t+1)}=\frac{1}{N} \sum_{n=1}^{N} R_{n j}\left(\theta^{(t)}\right) \\ \mu_{j}^{(t+1)}=\frac{1}{N \pi_{j}^{(t+1)}} \sum_{n=1}^{N} R_{n j}\left(\boldsymbol{\theta}^{(t)}\right) \mathbf{x}_{n} . \\ \sigma_{j}^{2(t+1)}=\left(d-k_{j}\right)^{-1} \sum_{\ell=k_{j}+1}^{d} \lambda_{j \ell} \\ \mathbf{A}_{j}^{(t+1)}=\mathbf{U}_{j}\left(\Lambda_{j}-\sigma_{j}^{2(t+1)} \mathbf{I}\right)^{1 / 2} \end{array}$

其中， $\mathbf{U}_{j}=\left(\mathbf{u}_{j 1}, \ldots, \mathbf{u}_{j k_{j}}\right), \quad \Lambda_{j}=\operatorname{diag}\left(\lambda_{j 1}, \ldots, \lambda_{j k_{j}}\right)$ ， $\left\{\lambda_{j \ell}\right\}_{\ell=1}^{d},\left\{\mathbf{u}_{j \ell}\right\}_{\ell=1}^{d}$ 是 $\mathbf{S}_{j}^{(t+1)}$ 降序特征值和特征向量。

对于MAP估计， $\boldsymbol{\theta}^{(t+1)}$ 可以通过如下函数获得：

$\boldsymbol{\theta}^{(t+1)}=\underset{\boldsymbol{\theta}}{\arg \max }\left\{Q\left(\boldsymbol{\theta} \mid \boldsymbol{\theta}^{(t)}\right)+\log p(\boldsymbol{\theta})\right\} .$
其中， $\boldsymbol{\theta}^{(t+1)}$ 的更新公式依赖于先验分布 $p(\boldsymbol{\theta})$ 的选择。

3 模型选择方法

模型选择方法从一个计算的角度，可以划分为两类：two-stage和one-stage方法。

3.1 two-stage methods

two-stage 方法在一个集合 $\mathbf{k})$ ，其中 $m$ 的范围 $m_{min},m_{max}]$ ,每一个 $k_j$ 的范围是 $k_{min},k_{max}]$ ,假定最优的模型被包含在里面，two-stage方法首先获得每一个模型的ML/MAP估计 $\hat{\boldsymbol{\theta}}(m, \mathbf{k})$ ，然后利用模型选择标准 $\mathcal{L}^{*}(m, \mathbf{k}, \hat{\boldsymbol{\theta}}(m, \mathbf{k}))$ 来选择最佳的模型：

$(\hat{m}, \hat{\mathbf{k}})=\underset{(m, \mathbf{k})}{\arg \max }\left\{\mathcal{L}^{*}(m, \mathbf{k}, \hat{\boldsymbol{\theta}}(m, \mathbf{k}))\right\} .$
已经提出了很多模型选择标准，例如AIC,BIC,LEC,ICL,MDL等，但是所有的标准都可以被写成如下形式：

$\mathcal{L}^{*}(m, \mathbf{k}, \hat{\boldsymbol{\theta}}(m, \mathbf{k}))=\mathcal{L}(\mathbf{X} \mid \hat{\boldsymbol{\theta}}(m, \mathbf{k}))-\mathcal{P}(\hat{\boldsymbol{\theta}}(m, \mathbf{k}))$

其中， $\mathcal{P}(\hat{\boldsymbol{\theta}}(m, \mathbf{k}))$ 是惩罚项，用于惩罚更高的 $\mathbf{k})$ 。

由于BIC理论上的相合性和满意的实际应用性能，BIC对于混合模型来说更流行。MDL和BIC有相同的形式，但是它来自于信息论或者编码论。

对于 $m$ 个分量的MPCA，BIC的惩罚项如下：

$\mathcal{P}_{b i c}(\hat{\boldsymbol{\theta}})=\frac{1}{2}\left[\sum_{j=1}^{m}\left(\mathcal{D}_{j}+1\right)-1\right] \log N$
其中， $\mathcal{D}_{j}=d\left(k_{j}+1\right)-k_{j}\left(k_{j}-1\right) / 2+1$ 是 $\boldsymbol{\theta}_{j}$ 的自有参数的个数。可是BIC使用整个样本量 $N$ 来决定第 $j$ 个分析器 $\mathcal{D}_{j}$ 。

为了使用two-stage方法，通常假定common- $k$ 模型，否则是太耗时了。

3.2 one-stage 方法

不像两阶段方法，one-stage方法将参数估计和混合模型的分量数 $m$ 的确定集成到一个单独的算法中，这在计算上更有效。一个有代表性的例子就是FJ算法。作者提出了一种MML标准：

$\hat{\boldsymbol{\theta}}=\underset{\theta}{\arg \max }\left\{\mathcal{L}(\mathbf{X} \mid \boldsymbol{\theta})-\mathcal{P}_{\boldsymbol{m m} l}(\boldsymbol{\theta})\right\}$

其中，
$\mathcal{P}_{m m l}(\boldsymbol{\theta})=\sum_{j=1}^{m} \frac{\mathcal{D}_{j}}{2} \log \left(\frac{N \pi_{j}}{12}\right)+\frac{m}{2} \log \frac{N}{12}+\sum_{j=1}^{m} \frac{\mathcal{D}_{j}+1}{2}$
这个标准的显著特征是：之前的AIC和BIC准则和参数都没有关系，MML准则却不同。1) 惩罚项包含模型参数 $\pi_j's$ 和似然函数一起被联合优化；2）新的标准关于 $\boldsymbol{\theta}$ 和 $\mathcal{D}_{j}$ 同时最大化。为了做到这些，作者提出了一种one-stage算法(FJ算法)，实现只需要在原来的EM算法中做简单的修改就可以了。

FJ算法有两个局限：第一，只有在局部子空间维度 $k_j$ 给定时才能应用到MPCA模型上；第二，在FJ算法中，关于参数 $\boldsymbol{\theta}$ 最大化目标函数的更新方程和上述EM算法的更新方程是一样的，除了混合比例 $\pi_j's$ 的更新方程改变为：

$\pi_{j}^{(t+1)}=\frac{\max \left\{0, \sum_{n=1}^{N} R_{n j}\left(\boldsymbol{\theta}^{(t)}\right)-\frac{\mathcal{D}_{j}}{2}\right\}}{\sum_{j=1}^{m} \max \left\{0, \sum_{n=1}^{N} R_{n j}\left(\boldsymbol{\theta}^{(t)}\right)-\frac{\mathcal{D}_{j}}{2}\right\}}$

上述这个公式自动地消除了数据支持不是很好的第 $j$ 个分量，即 $\sum_{n=1}^{N} R_{n j}<=\mathcal{D}_{j}/2$ 。尽管上述公式具有吸引人的特征，但我们也发现，这个约束太强了而不能在用在很多真实的数据集。

4 Hierarchical BIC(H-BIC)

H-BIC准则如下：
$\mathcal{P}_{h b i c}(\hat{\boldsymbol{\theta}})=\sum_{j=1}^{m} \frac{\mathcal{D}_{j}}{2} \log \left(N \hat{\pi}_{j}\right)+\frac{m-1}{2} \log N$
其中 $\mathcal{D}_{j}$ 是 $\boldsymbol{\theta}_{j}$ 自由参数的个数， $\hat{\pi}_j$ 是ML/MAP估计。

HBIC是VB下界的大样本极限，证明请详细看相关论文。

4.1 BIC和MML的区别和联系

Hbic和bic的联系：其一，对于单分量混合模型 $m = 1$ 时，HBIC退化成BIC;其二，当 $m > 1$ 时，BIC比HBIC惩罚的更重。其三,在大样本情形下，BIC是HBIC的进一步近似；其四，对于HBIC，是通过分层形式的BIC来实现的，因为1）****BIC for $\pi_j's$ : 因为约束条件 $\sum_{j=1}^{m} \pi_{j}=1$ 和N个数据点都致力于估计 $\pi_j's$ ，对应的 $\pi_j's$ 的BIC惩罚项为 $\frac{m-1}{2} \log N$ . 2) 每一个分量的局部BIC： $\hat{\pi}_{j}$ 可以看做有效的样本量。

回顾在MPCA模型下的数据生成的两步过程，首先基于 $\pi_j$ 生成分量标签 $j$ ,然后基于 $\boldsymbol{\theta}_{j}$ 生成数据 $\mathbf{x}_n$ ,因此，上述标准可以看做是分层BIC准则，每一层对应数据点的生成步骤。

HBIC和MML的区别和联系
1）可以发现，hbic中包含的是 $\hat{\pi}_j$ ，而MML包含的是需要和似然函数一起优化的 $\pi_j$ ，因此MML的解并不是ML估计和MAP估计。此外， $12 / e = 4.4146$ ,因此mml的惩罚项可重写为：

$\mathcal{P}_{m m l}(\boldsymbol{\theta}) \approx \sum_{j=1}^{m} \frac{\mathcal{D}_{j}}{2} \log \left(\frac{N \pi_{j}}{4.4146}\right)+\frac{m}{2} \log \frac{N}{4.4146}$

可以看到：mml的惩罚比HBIC的更轻。

由于FJ算法遭遇了很强的约束条件，下文中基于HBIC提出相关的算法。其次，mml选择的模型通常带有太多的谬误的分量（仅仅包含很少的数据点），主要是因为mml的惩罚项对太小的 $\pi_j$ 不敏感。特别地，当 $\pi_j<4.4$ ,事实上，该分量的惩罚是负的，因此可能会遇到不显著的分量。

5 两个算法

显然，在MPCA中，经典的使用BIC的two-stage方法也可以用来实现HBIC。可是，即使限制common- $k$ ，这仍然是耗时的。本节主要提出两个有效的算法：两阶段变种和一阶段变种算法，且这两种算法都是基于修改的EM算法。

5.1 修改的EM算法

在这里，我们将维度 $k_j's$ 看做参数，并引入一个额外的M-step关于 $k_j's$ 最大化HBIC。通过这样，参数估计和关于 $k_j's$ 的模型选择可以被同时解决。

当给定分量数 $m$ 时，目标函数为：
$\mathcal{L}^{*}(\boldsymbol{\theta}, \mathbf{k})=\mathcal{L}(\boldsymbol{\theta})-\sum_{j=1}^{m} \frac{\mathcal{D}_{j}}{2} \log \left(N \pi_{j}\right)-\frac{m-1}{2} \log N$
目标是估计 $(\hat{\mathbf{k}}, \hat{\boldsymbol{\theta}}(\hat{\mathbf{k}}))$ 。 $\hat{\mathbf{k}}$ 是具有最大HBIC的模型。但是，注意到，最大化上述的函数类似于最大化mml目标函数，这并不能ML/MAP估计 $\boldsymbol{\theta}$ 。因此，我们需要使用包含 $\hat{\boldsymbol{\theta}}$ 的EM 算法。

当给定 $\left(\pi_{j}^{(t+1)}, \mu_{j}^{(t+1)}\right)^{\prime} \mathrm{s}$ ，新的对应的惩罚函数为：

$Q^{*}\left(\theta \mid \theta^{(t)}, \pi^{(t+1)}\right)=\sum_{j=1}^{m} \mathrm{I}_{j}^{*}\left(\theta \mid \theta^{(t)}, \pi^{(t+1)}\right)-\frac{m-1}{2} \log N$
其中，
$\mathrm{II}_{j}^{*}\left(\theta \mid \theta^{(t)}, \pi^{(t+1)}\right)=\mathrm{II}_{j}\left(\theta \mid \theta^{(t)}\right)-\frac{\mathcal{D}_{j}}{2} \log \left(N \pi_{j}^{(t+1)}\right)$
修改的EM算法按如下步骤接待：
step1: 最大化Q关于 $\theta$ 获得 $\theta^{(t+1)}$
step2:最大化 $Q^*$ 关于 $\mathbf{k}$ 获得 $\mathbf{k}^{(t+1)}$

$k_j$ 的闭式表达按如下获得：
$\begin{array}{l} k_{j}^{(t+1)}=\underset{k}{\arg \min }\left\{N \pi_{j}^{(t+1)}\left(\sum_{l=1}^{k} \log \lambda_{j l}+(d-k) \cdot \log \frac{\sum_{l=k+1}^{d} \lambda_{j l}}{d-k}\right)\right. \\ \left.\quad+\mathcal{D}_{j} \log \left(N \pi_{j}^{(t+1)}\right)\right\} \end{array}$
其中， $\operatorname{tr}\left(\Sigma_{j}^{-1} \mathbf{S}_{j}^{(t+1)}\right)=d$ ，丢掉与 $k_j$ 不相关的项就得到上式。

5.2 最大后验估计

ML估计可能会接触到参数空间的边界，因此会遭受奇异值问题。在这种情况下，HBIC的值不能被计算。当分量数 $m$ h和子空间维度 $k_j$ 比最优的大的时候，这种情况将会频繁发生。为了处理这种问题，使用MAP估计，因为他比ML估计更稳定，HBIC总是可以计算。
使用如下先验：

$\begin{aligned} p(\theta)=& p(\pi) \prod_{j} p\left(\mu_{j}\right) p\left(\Sigma_{j}\right) \\ & \propto \prod_{j}\left|\Sigma_{j}\right|^{-\frac{g}{2}} \exp \left\{-\frac{1}{2} \operatorname{tr}\left(\Sigma_{j}^{-1} \mathbf{B}\right)\right\} \end{aligned}$

其中B是正定阵，上述先意味着： $\Sigma_j$ 使用带有 $g$ 个自由度的逆wishart先验， $\pi_j$ 和 $\mu_j$ 使用无信息先验。

对于固定的 $k_j's$ ，我们只需要替代 $\mathbf{S}_{j}^{(t+1)}$ 为：

$\begin{aligned} \tilde{\mathbf{S}}_{j}^{(t+1)} &=\frac{1}{N \pi_{j}^{(t+1)}+g}\left(N \pi_{j}^{(t+1)} \mathbf{S}_{j}^{(t+1)}+\mathbf{B}\right) \\ &=(1-\gamma) \mathbf{S}_{j}^{(t+1)}+\gamma \frac{\mathbf{B}}{g} \end{aligned}$
其中， $\gamma=g /\left(N \pi_{j}^{(t+1)}+g\right) .$