含缺失值训练集的增量修复算法
在工业过程控制、医疗诊断、市场营销和风险管理等领域,现实生活中的数据集常常包含缺失值。这给许多需要完整训练集的分类和回归算法带来了挑战。接下来,我们将介绍一种新的方法——增量属性回归插补(IARI),用于修复这类不完整的数据集。
1. 问题提出
在工业过程和许多其他现实应用中,收集数据点是为了深入了解过程并做出重要决策。然而,收集的数据中存在缺失值,这给构建预测模型和将其应用于新数据带来了额外的问题。缺失值非常常见,例如生产线的数据收集传感器可能会出现故障,医生在检查病人时可能会跳过某些测试,市场调查问卷中也常常存在未回答的问题等。这就引出了两个问题:
- 当训练集中的某些值缺失时,如何构建高质量的分类和回归模型?
- 如何将训练好的模型应用于包含缺失值的记录?
本文主要解决第一个问题,第二个问题留待进一步研究。
2. 缺失数据类型
缺失数据主要分为以下三种类型:
- 完全随机缺失(MCAR) :变量值缺失的概率不依赖于该变量或其他变量的(观测到或未观测到的)值。
- 随机缺失(MAR) :变量值缺失的概率不依赖于该变量的(未观测到的)值。
- 非随机缺失(MNAR) :变量值缺失的概率在某种程度上依赖于该变量或其他变量的实际(观测到或未观测到的)值。
在现实世界中,往往很难确定缺失数据属于哪种类型,因为缺失机制通常是未知的。在这种情况下,领域专业知识至关重要,它可以指导选择处理缺失值的策略。
超级会员免费看
订阅专栏 解锁全文
1141

被折叠的 条评论
为什么被折叠?



