《数据清洗》日常学习笔记

最新推荐文章于 2022-12-06 11:16:27 发布

大葱001

最新推荐文章于 2022-12-06 11:16:27 发布

阅读量786

点赞数 3

文章标签： big data 数据库 etl

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_50739598/article/details/120188212

版权

本文详细探讨了数据清洗的重要性，从数据质量的评价指标到数据清洗的定义、原理、基本流程和策略。强调了准确性、完整性、简洁性和适用性作为数据质量的核心，并分类了基于数据源和清洗方式的“脏”数据。介绍了数据清洗的常见方法，如处理缺失值、重复值和错误值，以及数据清洗流程的五个步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

因为原始数据中存在着一些错误、重复的数据，直接使用的话会严重影响数据决策的准确性和效率，所以要对原始数据进行有效的清洗是大数据分析过程中的关键环节。

1.1.1数据质量的评价指标

包括数据的准确性、完整性、简洁性、适用性。其中准确性、完整性、简洁性是为了保证数据的适用性

1.1.2数据质量的问题分类

一类是基于数据源的“脏”数据分类；另一类是基于清洗方式的“脏”数据分类。

A.基于数据源的“脏”数据分类

数据又分为单数据源和多数据源，数据源又下分为模式层和实例层（元祖、行、记录），模式层是指数据库的结构，就是关系结构，实例层是指关系中具体存储的数据记录或元组。

B.基于清洗方式的“脏”数据分类

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。