【大数据】查找并优化参数设置不合理,导致产生大量小文件的Hive任务
背景 公司的数据开发平台上提交了数万个定时任务,有Mapreduce,也有Spark,mapreduce业务大多是基于Hive的定时任务。(我们公司没有用oozie,数据开发平台集成了oozie的任务流功能。)定时任务是由业务方自己提交,并且自己设置相关参数的。所有经常会出现参数设置不合理,导致map数和reduce数都非常大,过程中产生大量小文件,影响了HDFS的性能。所以前段时间安排了针...
原创
2018-02-24 20:40:47 ·
827 阅读 ·
0 评论