【数据清洗】2012-数据清洗及其一般性系统框架

本文详细介绍了数据清洗的PDLMV框架,包括准备、检测、定位、修正和验证五个阶段,阐述了每个阶段的具体内容和作用,强调了PDLMV框架的定制性和灵活性,以及其在数据处理过程中的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

tt

 

(1)准备。包括需求分析、信息环境分析、任务定义、方法定义、基本配置,以及基于以上工作获得数据清洗方案等。通过需求分析明确信息系统的数据清洗需求,通过信息环境分析明确数据所处的信息环境特点,任务定义要明确具体的数据清洗任务目标,方法定义确定合适的数据清洗方法,基本配置完成数据接口等的配置,要形成完整的数据清洗方案,并整理归档。
      (2)检测。包括检测必需的数据预处理,并进行相似重复记录、不完整记录、逻辑错误、异常数据等数据质量问题的检测,对检测结果进行统计,以获得全面的数据质量信息,并将相关信息整理归档。
      (3)定位。包括数据质量问题定位、数据追踪分析,并根据检测结果对数据质量进行评估,分析问题数据及修正的业务影响,分析产生数据质量问题的根本原因;进而确定数据质量问题性质及位置,给出数据修正方案,并将相关信息归档。根据定位分析情况,可能需要返回“检测”。
      (4)修正。在定位分析的基础上,对检测出的实例层数据质量问题进行修正,具体包括问题数据标记、不可用数据删除、重复记录合并、缺失数据估计与填充等,并对数据修正过程进行数据世系管理。
      (5)验证。验证修正后的数据与任务定义的符合性(用到部分检测操作),如果结果与任务目标不符合,则做进一步定位分析与修正,甚至返回“准备”中调整相应准备工作。

图1中的一般性系统框架PDLMV根据用户要求,允许从不同的阶段开始,在不同的阶段停止,以完成不同的数据清洗任务,即PDLMV是可定制的,并且各功能可单独完成。因此,PDLMV是一个柔性的、可扩展的、交互性好的、松耦合的数据清洗框架。同时,由PDLMV完成的数据处理过程,均可视为完整数据清洗过程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值