MapReduce调优

最新推荐文章于 2023-07-18 16:28:02 发布

转载最新推荐文章于 2023-07-18 16:28:02 发布 · 149 阅读

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/Forever_ck/article/details/84799319

一、在调优之前，我们需要清楚以下两个问题：

MapReduce为什么跑的慢？
MapReduce程序的瓶颈是什么？
二、MapReduce程序效率的瓶颈可以概括为以下两点：
2.1：计算机性能（即硬件）
CPU、内存、磁盘健康、网络状况
2.2：I/O操作优化
1. 数据倾斜
2. map和reduce数设置不合理
3. map运行时间太长，导致reduce等待时间过长
4. 小文件过多
5. 大量的不可分割的超大文件
6. spill次数过多
7. merge次数过多等。
三、找到了问题，那么再来看解决方法：
MapReduce 优化方法主要从六个方面考虑：数据输入、Map 阶段、Reduce 阶段、IO 传输、数据倾斜问题和常用的调优参数。
3.1 数据输入
（1）合并小文件：在执行 mr任务前将小文件进行合并，大量的小文件会产生大量的map 任务，增大 map 任务装载次数，而任务的装载比较耗时，从而导致 mr 运行较慢。
（2）采用 CombineTextInputFormat来作为输入，解决输入端大量小文件场景。
3.2 Map阶段
1）减少溢写（spill）次数：通过调整 io.sort.mb及 sort.spill.percent参数值，增大触发spill 的内存上限，减少 spill 次数，从而减少磁盘 IO。
2）减少合并（merge）次数：通过调整 io.sort.factor参数，增大 merge的文件数目，减少 merge的次数，从而缩短 mr处理时间。
3）在 map之后，不影响业务逻辑前提下，先进行 combine处理，减少 I/O。
3.3 Reduce阶段
1）合理设置 map和 reduce数：两个都不能设置太少，也不能设置太多。太少，会导致 task 等待，延长处理时间；太多，会导致 map、reduce 任务间竞争资源，造成处理超时等错误。
2）设置 map、reduce共存：调整 slowstart.completedmaps参数，使 map 运行到一定程度后，reduce 也开始运行，减少reduce 的等待时间。
3）规避使用 reduce：因为 reduce在用于连接数据集的时候将会产生大量的网络消耗。
4）合理设置 reduce端的 buffer：默认情况下，数据达到一个阈值的时候，buffer中的数据就会写入磁盘，然后 reduce 会从磁盘中获得所有的数据。也就是说，buffer和 reduce是没有直接关联的，中间多个一个写磁盘->读磁盘的过程，既然有这个弊端，那么就可以通过参数来配置，使得 buffer中的一部分数据可以直接输送到 reduce，从而减少 IO开销：mapred.job.reduce.input.buffer.percent，默认为 0.0。当值大于 0的时候，会保留指定比例的内存读 buffer中的数据直接拿给 reduce使用。这样一来，设置 buffer需要内存，读取数据需要内存，reduce 计算也要内存，所以要根据作业的运行情况进行调整。
3.4 IO传输
1）采用数据压缩的方式，减少网络 IO的的时间。安装 Snappy和 LZO压缩编码器。
2）使用 SequenceFile二进制文件。
3.5数据倾斜问题
1）数据倾斜现象
数据频率倾斜——某一个区域的数据量要远远大于其他区域。数据大小倾斜——部分记录的大小远远大于平均值。
2）如何收集倾斜数据
在 reduce 方法中加入记录 map 输出键的详细情况的功能。
3）减少数据倾斜的方法
方法 1：抽样和范围分区
可以通过对原始数据进行抽样得到的结果集来预设分区边界值。
方法 2：自定义分区
基于输出键的背景知识进行自定义分区。例如，如果 map 输出键的单词来源于一本书。且其中某几个专业词汇较多。那么就可以自定义分区将这这些专业词汇发送给固定的一部分reduce 实例。而将其他的都发送给剩余的reduce 实例。
方法 3：Combine
使用 Combine 可以大量地减小数据倾斜。在可能的情况下，combine 的目的就是聚合并精简数据。
方法 4：采用 Map Join，尽量避免 Reduce Join
---------------------
作者：Forever_ck
来源：优快云
原文：https://blog.youkuaiyun.com/Forever_ck/article/details/84799319
版权声明：本文为博主原创文章，转载请附上博文链接！