数据准备全解析:从清洗到采样的综合指南
1. 数据清洗基础
1.1 数据清洗流程定义
数据清洗是一个关键的过程,可精确地解释为四个阶段:
1. 定义和识别错误 :找出数据中的不完整、不正确、不准确或不相关等问题。
2. 清理和纠正错误 :通过替换、修改或删除等操作来处理这些错误。
3. 记录错误实例和类型 :对发现的错误进行详细记录。
4. 测量和验证 :检查清洗是否符合用户指定的清洁度容忍限度。
1.2 数据异常类型
数据异常指的是数据集中的不完美之处,对应于理想(无错误)数据集(DI)与真实数据(DR)之间的差异。异常可分为以下三大类:
- 语法异常 :涉及实体表示的格式和值的特征,包括词法错误、域格式错误、句法错误和不规则性。
- 语义异常 :妨碍数据收集成为小世界的全面且无冗余的表示,如完整性约束违规、矛盾、重复和无效元组。
- 覆盖异常 :减少数据收集中所表示的小世界中的实体和实体属性数量,表现为缺失值和缺失元组。
1.3 数据清洗流程步骤
数据清洗是一个迭代过程,包含四个连续步骤:
1. 数据审计 :主要识别降低数据质量的异常类型。使用预设的验证规则检查数据,并创建数据质量及其问题的报告,常应用一些统计测试来检查数据。
超级会员免费看
订阅专栏 解锁全文
89

被折叠的 条评论
为什么被折叠?



