解决健康数据集缺失值问题的方法探索
1. 研究方法概述
本研究旨在解决健康数据集中存在的缺失值问题,关键在于使用逼真的合成数据集以及模拟缺失情况。合成数据集的生成需基于含缺失值的真实数据集所生成的参数,人工模拟的缺失情况在缺失程度和模式上应与实际观测数据集的缺失情况相似。
2. 数据集描述
选用来自马拉维、纳米比亚、赞比亚和津巴布韦等南部非洲国家的最新 DHS 调查数据集。这些国家位于撒哈拉以南非洲的疟疾流行地区,且拥有疟疾、贫血、糖尿病和高血压等相关数据,这些疾病是该地区和非洲大陆面临的重大健康挑战。
观测数据集存在诸多数据不完整问题,如缺失值(用缺失值代码表示)、不一致值、未知值、空白、数据偏斜以及部分目标特征缺少标签等。为此,从观测数据集中选取一个文件进行清理,仅保留特定特征集中的实例,该数据集的缺失率约为 23.8%。
3. 具体研究步骤
以下是研究方法的具体步骤:
1. 数据加载与清理 :加载一份人口与健康调查数据集作为研究数据集,删除所有缺失值,创建一个包含大部分相关贫血特征的干净子数据集,该数据集包含 2058 个实例和 56 个特征。
2. 数据缩放 :使用最小 - 最大缩放器对干净的子数据集进行缩放,以避免某些特征对合成数据集生成模型产生主导影响,确保数据由高斯混合模型(GMM)数据生成器的不同组件生成。
3. GMM 参数学习 :使用 GMM 学习合成数据集生成模型的超参数。首先进行参数搜索,通过 Akaike 信息准则(AIC)和贝叶斯信息准则(BI
超级会员免费看
订阅专栏 解锁全文
708

被折叠的 条评论
为什么被折叠?



