关于数据清洗的一点补充

本文探讨了数据清洗的重要步骤,包括脏数据的识别与处理。通过数据可视化发现并避免脏数据,采用去除重复、补全缺失、纠正错误等手段优化数据质量。文中详细介绍了在实际工作中如何有效执行数据清洗流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在数据的清洗中,首先是需要判断这个数据是脏数据,那么就会有以下几个问题:

怎么知道这个数据是脏数据呢?

知道这个数据是脏数据之后怎么处理呢?

在上家公司里边,对于脏数据的判断,我们是做了可视化之后进行清晰地,也就是首先对数据进行解析,格式转化等,存入数据库中,然后做数据的webUI的展示。

当数据展示出来之后,再去前端看那些数据不合适,然后想办法去避免这样的数据的出现,就会去清洗阶段进行优化。

那么优化之后,后边流进库里边的数据依然是干净数据,库里之前的脏数据还存在着,这个在前端展示的时候还会有影响,怎么办呢?答案是库里边的数据都是测试数据,那么测试数据就是非正式数据,是可以进行废弃的。

知道这个数据是脏数据怎么处理呢?

分情况进行处理,对于重复数据去除重复;对于不全的数据补全,对于错误数据进行纠正等,这个就需要根据业务以及数据的用途来定了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值