数据插补与插值方法详解
1. 数据插补方法
1.1 k - nn插补及其简化
在进行数据插补时,我们应用了k - nn方法,并做了一些简化处理:
1. 忽略了部分属性比其他属性更完整的事实。
2. 尽管许多缺失属性的频率大致相等,但忽略了缺失属性分布可能不均的情况。
3. 当至少有一个属性缺失时,我们替换整行数据,而非基于额外信息替换单个字段。
通过这些简化,我们生成的插补值与观测值相似,没有负值和极大值,且插补值与观测值的组合分布与仅观测值的分布相似,但这并非总是如此。
1.2 最近邻分类方法的局限性
最近邻分类方法可用于确定新观测值所属类别,但该方法需要存储整个训练集,可能导致计算时间过长。此外,它依赖于选择和计算观测值的加权组合,而非对缺失和观测数据的潜在分布进行假设。而且,仅使用欧几里得距离定义相邻关系时,相邻覆盖类型可能存在较大差异,这可能导致插补值无法反映当前植被的真实分布。
1.3 期望最大化(EM)算法插补
1.3.1 EM算法原理
EM算法通过反复更新最大似然参数估计并插补期望值,迭代计算缺失观测值的期望值,直到收敛。它已应用于最大似然估计、潜在结构模型、神经网络学习和吉布斯采样等领域。该算法主要包括两个步骤:
1. E - 步 :从观测数据和当前参数估计中找到缺失数据的条件期望,并将这些期望代回缺失数据。
2. M - 步 :假设没有缺失数据,进行参数的最大似然估计。
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



