在数据的清洗中,首先是需要判断这个数据是脏数据,那么就会有以下几个问题:
怎么知道这个数据是脏数据呢?
知道这个数据是脏数据之后怎么处理呢?
在上家公司里边,对于脏数据的判断,我们是做了可视化之后进行清晰地,也就是首先对数据进行解析,格式转化等,存入数据库中,然后做数据的webUI的展示。
当数据展示出来之后,再去前端看那些数据不合适,然后想办法去避免这样的数据的出现,就会去清洗阶段进行优化。
那么优化之后,后边流进库里边的数据依然是干净数据,库里之前的脏数据还存在着,这个在前端展示的时候还会有影响,怎么办呢?答案是库里边的数据都是测试数据,那么测试数据就是非正式数据,是可以进行废弃的。
知道这个数据是脏数据怎么处理呢?
分情况进行处理,对于重复数据去除重复;对于不全的数据补全,对于错误数据进行纠正等,这个就需要根据业务以及数据的用途来定了。