16、优化算法与信息理论基础

time3

于 2025-06-24 09:33:50 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：概率机器学习入门精要文章标签： EM算法缺失数据多元正态分布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/time3/article/details/151315101

概率机器学习入门精要专栏收录该内容

91 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

优化算法与信息理论基础

1. 带缺失数据的多元正态分布 EM 算法

在处理数据时，经常会遇到数据缺失或部分观测的情况，例如调查问卷中的某些答案可能未知。为了处理这种情况，我们引入了一些概念和方法。

1.1 缺失数据的建模

设 $M$ 是一个 $N \times D$ 的二进制变量矩阵，其中 $M_{nd} = 1$ 表示第 $n$ 个样本的第 $d$ 个特征缺失，$M_{nd} = 0$ 表示该特征存在。对于第 $n$ 个样本，$y_n$ 是可见条目（$M_{nd} = 1$），$z_n$ 是隐藏条目（$M_{nd} = 0$），且 $y_n = (y_n, z_n) \sim N(\mu, \Sigma)$。

根据不同的假设，数据缺失情况可分为以下三类：
- MCAR（Missing Completely At Random） ：假设 $p(M|Y, \phi) = p(M|\phi)$，即数据缺失与数据本身无关。
- MAR（Missing At Random） ：假设 $p(M|Y, \phi) = p(M|Y, \phi)$。
- NMAR（Not Missing At Random） ：上述两个假设都不成立。

在 MCAR 和 MAR 情况下，我们可以忽略缺失机制；而在 NMAR 情况下，需要对缺失数据机制进行建模。为了简化，我们采用 MAR 假设，此时可见数据的对数似然函数形式为：
[
\log p(Y|\theta) = \sum_{n} \log p(y_n|

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。