16、优化算法与信息理论基础

优化算法与信息理论基础

1. 带缺失数据的多元正态分布 EM 算法

在处理数据时,经常会遇到数据缺失或部分观测的情况,例如调查问卷中的某些答案可能未知。为了处理这种情况,我们引入了一些概念和方法。

1.1 缺失数据的建模

设 $M$ 是一个 $N \times D$ 的二进制变量矩阵,其中 $M_{nd} = 1$ 表示第 $n$ 个样本的第 $d$ 个特征缺失,$M_{nd} = 0$ 表示该特征存在。对于第 $n$ 个样本,$y_n$ 是可见条目($M_{nd} = 1$),$z_n$ 是隐藏条目($M_{nd} = 0$),且 $y_n = (y_n, z_n) \sim N(\mu, \Sigma)$。

根据不同的假设,数据缺失情况可分为以下三类:
- MCAR(Missing Completely At Random) :假设 $p(M|Y, \phi) = p(M|\phi)$,即数据缺失与数据本身无关。
- MAR(Missing At Random) :假设 $p(M|Y, \phi) = p(M|Y, \phi)$。
- NMAR(Not Missing At Random) :上述两个假设都不成立。

在 MCAR 和 MAR 情况下,我们可以忽略缺失机制;而在 NMAR 情况下,需要对缺失数据机制进行建模。为了简化,我们采用 MAR 假设,此时可见数据的对数似然函数形式为:
[
\log p(Y|\theta) = \sum_{n} \log p(y_n|

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值