55、数据准备全解析:从清洗到采样的综合指南

数据准备全解析:从清洗到采样的综合指南

1. 数据清洗基础

1.1 数据清洗流程定义

数据清洗是一个关键的过程,可精确地解释为四个阶段:
1. 定义和识别错误 :找出数据中的不完整、不正确、不准确或不相关等问题。
2. 清理和纠正错误 :通过替换、修改或删除等操作来处理这些错误。
3. 记录错误实例和类型 :对发现的错误进行详细记录。
4. 测量和验证 :检查清洗是否符合用户指定的清洁度容忍限度。

1.2 数据异常类型

数据异常指的是数据集中的不完美之处,对应于理想(无错误)数据集(DI)与真实数据(DR)之间的差异。异常可分为以下三大类:
- 语法异常 :涉及实体表示的格式和值的特征,包括词法错误、域格式错误、句法错误和不规则性。
- 语义异常 :妨碍数据收集成为小世界的全面且无冗余的表示,如完整性约束违规、矛盾、重复和无效元组。
- 覆盖异常 :减少数据收集中所表示的小世界中的实体和实体属性数量,表现为缺失值和缺失元组。

1.3 数据清洗流程步骤

数据清洗是一个迭代过程,包含四个连续步骤:
1. 数据审计 :主要识别降低数据质量的异常类型。使用预设的验证规则检查数据,并创建数据质量及其问题的报告,常应用一些统计测试来检查数据。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值