1设置合理的 map 和 reduce 的个数
2
设置合理的 blocksize
3避免出现数据倾斜
4使用 combine 函数
5对数据进行压缩
6优化 MM 参数()
7将 HDFS 上的小文件合并成 SequenceFile 大文件后再进行文件处理操作
本文介绍如何通过合理设置MapReduce任务数量、blocksize、避免数据倾斜、使用Combine函数、数据压缩及MM参数优化等策略,提升Hadoop大数据处理效率。
1248
403