注意,以下操作都是针对非分桶表
map数量
- 算法
- MapTask的个数=输入文件总大小/分片尺寸,个人理解就是输出的文件数量
- 原因:系统对输入的源文件依照Block的尺寸分片,并在执行Job时安排一个Map Task处理一个Block的
- 或者由mapred.map.task数量决定,但是如果这个参数不合理的话,会失效
- 小文件不分片
- 压缩文件无法被切分
- MapTask的个数=输入文件总大小/分片尺寸,个人理解就是输出的文件数量
- 优化建议
- 优化原因
- map数量过少则导致并发度减小,job过长;若大量作业,则会堵塞
- 优化原因