走进大数据丨 ETL – 数据清洗过程

数据清洗是数据分析的关键步骤,占分析过程的50%至80%时间。预处理阶段包括数据导入和元数据查看,分析处理阶段涉及缺失值、格式内容和逻辑错误清洗。去重、填充缺失值、修正属性依赖冲突等是清洗中的重要任务。数据格式和关联性校验确保数据一致性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我们已经对数据清洗有了一定概念:“数据清洗确保无法辨认的数据不会进入数据仓库。无法辨认的数据将影响到数据仓库中通过联机分析处理(OLAP)、数据挖掘和关键绩效指标(KPI)所产生的报表。”数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。

在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。所以数据清洗的过程就显得尤为重要,在下面的图上我们可以看到,数据清洗操作是在数据抽取完成之后,然而事实上,数据清洗的操作在整个ETL过程中都会有。比如,我们在数据抽取时会过滤掉某些字段,去除掉重复字段等;在数据加载时,我们会通过查询语法将部分不需要的信息剔除掉。这些都可以算是对数据的清洗。这样做的目的是降低我们数据清洗过程的复杂度,提高效率。

           

数据清洗的步骤大体可以分为这么几步:

预处理阶段:

  • 将数据导入处理工具。也就是我们数据的抽取过程,将数据导入到处理工具中。

  • 看数据。这里包含两个部分:一个是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;再有是抽取一部分数据,使用人工查看方式,对数据本身有一个直观的了解,并且初步发现一些问题,为之后的处理做准备

分析处理阶段:

  • 缺失值清洗:

    • 去除不需要的字段:对某些字段内容,数据分析过程可能用不上&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值