- 最近听大神讲到对于项目的看法,所以觉得收获颇多,所以在这里做个笔记,顺便分享给大家
- 我这里负责的是数据清洗的工作,有些时候,数据导入量非常大,达到几千万,几亿的数据量
- 所以对于这些大数据量的数据清洗,既需要效率,有需要质量,所以这是一个非常庞大的工作
- 总而言之就是:从源头控制数据质量,从源头进行数据清洗,就会减轻后面的工作量
本文记录了在面对数千万乃至数亿级别的大数据量时进行数据清洗的经验心得。强调了从源头提高数据质量的重要性,以减少后续处理的工作量。
262
2084
1881

被折叠的 条评论
为什么被折叠?