SparkSql实现多个Excel文件(.csv)合并去重操作(亲测有效)
a.业务需求
公司最近随着业务量的剧增,每天会有新的数据从公司服务器采集上来,公司大数据部门ETL组会每天清洗这些数据然后 生成一堆Excel文件(.csv)结尾,单个Excel文件不会出现重复的数据,总的数据量大概在1000万条,平均单个Excel数据量在40~50 万条。但是根据业务部门的指示想最终把这些Excel文件再做合并处理(按照某一属性如公司名称) 生成唯一一个Excel(.csv)...
原创
2019-09-02 18:34:08 ·
2660 阅读 ·
0 评论