数据质量与预处理:缺失值、基数和探索性数据分析
1. 缺失值处理
缺失数据指的是数据集中预期存在但实际缺失的某些值。其产生原因多样,比如数据录入错误、数据收集过程不完整或系统故障等。在医疗数据集中,可能因疏忽未完整记录患者病史,或者某些诊断测试未执行,从而出现缺失值;金融数据集中,交易未及时记录,或者因合并、系统升级导致历史金融数据存在缺口,也会产生缺失值。由于多数机器学习算法需要完整数据集才能达到最佳效果,所以缺失值给数据科学家和机器学习从业者带来了重大挑战。
从数据治理角度来看,处理缺失值的首要步骤是了解其性质和程度。缺失值可分为三类:
- 完全随机缺失(MCAR) :某个值缺失的可能性与观测数据和未观测数据均无关,即缺失数据是完全随机的事件。
- 随机缺失(MAR) :缺失数据的可能性与观测数据有关,但与缺失数据本身无关。例如在调查中,年长的受访者更可能跳过关于技术使用的问题,导致与年龄相关但与技术使用问题本身无关的缺失数据。
- 非随机缺失(MNAR) :缺失数据的可能性与缺失数据本身有关。例如症状更严重的患者不太可能进行随访,导致与病情严重程度直接相关的缺失数据。
理解缺失数据的性质对于选择合适的处理方法至关重要,不同类型的缺失数据需要不同的处理策略。
处理缺失值最常见的方法之一是插补,即利用基于观测数据的估计值来填充缺失数据。简单的插补方法有均值或中位数插补,即将缺失值替换为该变量观测数据的均值或中位数。例如,学生成绩数据集中的缺失值可以用全班的平均成绩替换。不过,这种方法可能会引入偏差,尤其是当缺失数据不
超级会员免费看
订阅专栏 解锁全文
655

被折叠的 条评论
为什么被折叠?



