有限混合模型中改良 EM 算法与岭迭代回归及数据增强套索的研究
1. 引言
最大似然估计的计算已成为统计分析中最流行的数值方法之一。有限混合模型中的 EM 算法虽为海量数据处理带来便利,但也存在明显缺点。过去几十年里,许多工作将 EM 算法应用和推广到各种问题中,如 ECM 算法优化了 M 步,ECME 算法增强了收敛性,还有准牛顿 EM 等加速方法。本文将聚焦于 EM 算法的 E 步,通过使用样本信息替换混合比例,期望加速收敛,尤其是在多分量的混合模型中。
同时,还提出了岭迭代回归(RIR)和数据增强套索(DAL)来分别改进岭回归和套索回归。
2. 有限混合模型参数估计的新方法
设 $F = {f(x;\theta);\theta \in\Theta}$ 是关于 $\sigma$-有限测度 $\nu$ 的一族概率密度函数,$\theta \in\Theta \subseteq\mathbb{R}^m$,$m \geq1$。有限混合分布的概率密度函数定义为:
$g(x;G) = \sum_{k=1}^{K}\pi_k f(x;\theta_k)$
其中 $G$ 称为混合分布,$\sum_{k=1}^{K}\pi_k = 1$ 且 $\pi_k \geq0$,$k = 1,2,\cdots,K$。
假设 ${x_1,x_2,\cdots,x_n}$ 是来自有限混合模型的观测值。通过最大化参数的对数似然函数 $\ln(G)$,可得到混合比例和分量参数的估计值。引入潜在变量 $z_{ik}$ 表示第 $i$ 个观测值的分量归属,完整的对数似然函数为:
$l_{n}^c(G) = \sum_{i=1}^{n}\su
超级会员免费看
订阅专栏 解锁全文
70

被折叠的 条评论
为什么被折叠?



