含缺失数据的主成分分析方法及应用
1. 高斯概率主成分分析与EM算法
在处理数据时,高斯概率主成分分析(Gaussian PPCA)是一种常用方法,其参数仅依赖于 $\theta(t)$。与通常对样本协方差矩阵进行对角化的方法相比,EM估计方法虽乍看吸引力不足,但在分析高维大型数据集时具有计算效率优势,尤其在存在随机缺失(MAR)值的情况下表现出色。
在有MAR值时,数据的不完整部分变为 $(z, u)$,步骤 (i) 中的期望需根据密度 $f(u, z|x, \theta(t))$ 来计算。
2. 非随机缺失数据处理
2.1 统计方法拓展
传统主成分分析(PCA)方法常假设数据缺失可忽略,但实际中存在非忽略的缺失机制。Geraci和Farcomeni将Tipping和Bishop的EM方法拓展到向量 $y$ 部分观测且缺失数据机制不可忽略的情况。
假设 $y_i$ 包含 $s_i$($s_i < p$)个缺失值,$(y_i, u_i, m_i)$ 的完整数据密度的第 $i$ 项贡献为:
$f (y_i, u_i, m_i|\theta, \eta) = f (y_i|u_i, \theta) f (u_i) f (m_i|y_i, \eta)$,$i = 1, \ldots, n$
其中,由参数 $\eta$ 索引的额外因子 $f (m_i|y_i, \eta)$ 是缺失数据机制(MDM),假设其与 $u_i$ 独立,这可简化估计算法后续步骤,不过放松该假设会增加计算时间。
2.2 EM算法应用
估计 $\theta$ 通常需对基于
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



