优化算法与信息理论基础
1. 带缺失数据的多元正态分布 EM 算法
在处理数据时,经常会遇到数据缺失或部分观测的情况,例如调查问卷中的某些答案可能未知。为了处理这种情况,我们引入了一些概念和方法。
1.1 缺失数据的建模
设 $M$ 是一个 $N \times D$ 的二进制变量矩阵,其中 $M_{nd} = 1$ 表示第 $n$ 个样本的第 $d$ 个特征缺失,$M_{nd} = 0$ 表示该特征存在。对于第 $n$ 个样本,$y_n$ 是可见条目($M_{nd} = 1$),$z_n$ 是隐藏条目($M_{nd} = 0$),且 $y_n = (y_n, z_n) \sim N(\mu, \Sigma)$。
根据不同的假设,数据缺失情况可分为以下三类:
- MCAR(Missing Completely At Random) :假设 $p(M|Y, \phi) = p(M|\phi)$,即数据缺失与数据本身无关。
- MAR(Missing At Random) :假设 $p(M|Y, \phi) = p(M|Y, \phi)$。
- NMAR(Not Missing At Random) :上述两个假设都不成立。
在 MCAR 和 MAR 情况下,我们可以忽略缺失机制;而在 NMAR 情况下,需要对缺失数据机制进行建模。为了简化,我们采用 MAR 假设,此时可见数据的对数似然函数形式为:
[
\log p(Y|\theta) = \sum_{n} \log p(y_n|
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



