数据清理与预处理:保障数据质量的关键步骤
1. 数据质量问题的普遍性
即使我们能够控制数据来源,也难以始终保证数据质量。例如,电子传感器可能会偶尔返回虚假或错误的读数,还可能存在间歇性问题,导致数据出现缺失。此外,负责收集或合成数据的软件可能存在潜在的漏洞,这些漏洞可能会在很长一段时间内未被发现,从而产生不良数据。而且,我们常常从无法控制的外部来源获取数据,因此必须预料到数据中可能存在各种问题,在使用之前需要进行清理和预处理。
2. 数据管道中的清理与预处理
数据管道的基本模型是通过核心数据表示(CDR)将数据从一种格式转换为另一种格式。在这个基础上,我们可以扩展概念模型,加入多个转换阶段,用于清理、准备和转换数据。这些阶段可以包括任意数量的数据转换步骤,通过CDR连接各个模块化的数据转换阶段,构建灵活的数据管道。
graph LR
A[导入代码] --> B[核心数据表示]
B --> C[清理]
C --> D[优化]
D --> E[核心数据表示]
E --> F[导出代码]
3. 识别不良数据的方法
识别不良数据有多种方法:
- 人工检查 :早期可以在文本编辑器或查看器中直接查看数据,通过肉眼发现问题。这种方法适用于小规模数据集,能帮助我们快速了解数据的大致情况,但对于大规模数据集则不适用,且容易遗漏问题。
- 脚本检查 :先手动分析一小部分数据,对其结构和格式
超级会员免费看
订阅专栏 解锁全文
531

被折叠的 条评论
为什么被折叠?



