HIVE如何处理大量小文件
HIVE如何处理大量小文件
一、 控制hive任务中的map数:
通常情况下,作业会通过input的目录产生一个或者多个map任务。
主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);
举例:
a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个ma
转载
2020-08-21 17:05:36 ·
616 阅读 ·
0 评论