16、数据清理与预处理:保障数据质量的关键步骤

数据清理与预处理:保障数据质量的关键步骤

1. 数据质量问题的普遍性

即使我们能够控制数据来源,也难以始终保证数据质量。例如,电子传感器可能会偶尔返回虚假或错误的读数,还可能存在间歇性问题,导致数据出现缺失。此外,负责收集或合成数据的软件可能存在潜在的漏洞,这些漏洞可能会在很长一段时间内未被发现,从而产生不良数据。而且,我们常常从无法控制的外部来源获取数据,因此必须预料到数据中可能存在各种问题,在使用之前需要进行清理和预处理。

2. 数据管道中的清理与预处理

数据管道的基本模型是通过核心数据表示(CDR)将数据从一种格式转换为另一种格式。在这个基础上,我们可以扩展概念模型,加入多个转换阶段,用于清理、准备和转换数据。这些阶段可以包括任意数量的数据转换步骤,通过CDR连接各个模块化的数据转换阶段,构建灵活的数据管道。

graph LR
    A[导入代码] --> B[核心数据表示]
    B --> C[清理]
    C --> D[优化]
    D --> E[核心数据表示]
    E --> F[导出代码]
3. 识别不良数据的方法

识别不良数据有多种方法:
- 人工检查 :早期可以在文本编辑器或查看器中直接查看数据,通过肉眼发现问题。这种方法适用于小规模数据集,能帮助我们快速了解数据的大致情况,但对于大规模数据集则不适用,且容易遗漏问题。
- 脚本检查 :先手动分析一小部分数据,对其结构和格式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值