Hadoop企业优化

最新推荐文章于 2023-07-19 16:41:20 发布

weixin_49063354

最新推荐文章于 2023-07-19 16:41:20 发布

阅读量105

点赞数

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.youkuaiyun.com/weixin_49063354/article/details/108085914

版权

Hadoop 专栏收录该内容

23 篇文章

订阅专栏

1.MapReduce跑得慢的原因

MapReduce程序效率的瓶颈在于两点：

（1）计算机性能：CPU，内存，磁盘健康，网络

（2）I/O操作优化：

①数据倾斜；②Map和Reduce数设置不合理；③Map运行时间太长，导致

Reduce等待过久；④小文件过多；⑤大量的不可切片的超大压缩文

件；⑥Split次数过多；⑦Merge次数过多等。

2.MapReduce优化方法

MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce

阶段、IO传输、数据倾斜问题和常用的调优参数。

2.1.数据输入：

（1）合并小文件：在执行MR任务前将小文件进行合并，大量的小文件

会产生大量的Map任务，增大Map任

务装载次数，而任务的装载比较耗时，从而导致MR运行缓慢。

（2）采用CombineTextInputFormat来作为输入，解决输入端大量小文件

场景。

2.2.Map阶段：

（1）减少溢写（Spill）次数：通过 mapreduce.task.io.sort.mb 及

mapreduce.map.sort.spill.percent 参数值，增大触发 Spill 的内存上限，减

少Spill次数，从而减少磁盘 IO 。

（2）减少合并（Merge）次数：通过调整 mapreduce.task.io.sort.factor

参数，增大 Merge 的文件数目，减少 Merge 的次数，从而缩短 MR 处理时

间。

（3）在 Map 之后，不影响业务逻辑前提下，先进行 Combine 处理，减

少 I/O 。

2.3.Reduce阶段：

（1）合理设置 Map 和 Reduce 数：两个都不能设置太少，也不能设置太

多。太少，会导致 Task 等待，延长处理时间；太多，会导致 Map、

Reduce 任务间竞争资源，造成处理超时等错误。

（2）设置Map、Reduce 共存：调整

mapreduce.job.reduce.slowstart.completedmaps 参数，使 Map 运

行到一定程度后，Reduce也开始运行，减少 Reduce 的等待时间。

（3）规避使用 Reduce：因为 Reduce 在用于连接数据集的时候将会产

生大量的网络消耗。

（4）合理设置 Reduce 端的 Buffer：默认情况下，数据达到一个阈值的

时候，Buffer中的数据就会写入磁盘，然后Reduce会从磁盘中获得所有的数

据。也就是说，Buffer 和 Reduce 是没有直接关联的，中间多次写磁盘-

–>读磁盘的过程，既然有这个弊端，那么就可以通过参数来配置，使得

Buffer中的一部分数据可以直接输送到Reduce，从而减少IO开

销：mapreduce.reduce.input.buffer.percent，默认为 0.0。当值大于0的时

候，会保留指定比例的内存读Buffer中的数据直接拿给Reduce使用。这样一

来，设置Buffer需要内存，读取数据需要内存，Reduce计算也要内存，所以

要根据作业的运行情况进行调整。

2.4.IO传输：

（1）采用数据压缩的方式，减少网络 IO 的时间。安装 Snappy 和 LZO 压

缩编码器。

（2）使用 SequenceFile 二进制文件。

2.5.数据倾斜问题：

（1）数据倾斜现象：

①数据倾斜频率——某一个区域的数据量要远远大于其他区域。

②数据大小倾斜——部分记录的大小远远大于平均值。

（2）减少数据倾斜的方法

方法①：抽样和范围分区

可以通过对原始数据进行抽样得到的结果集来预设分区边界值

方法②：自定义分区

基于输出键的背景知识进行自定义分区。例如，如果Map输出键的单词来

源于一本书。且其中某几个专业词汇较多。那么就可以自定义分区将这些专

业词汇发送给固定的一部分Reduce实例，而将其他的都发送给剩余的

Reduce 实例。

方法③：Combiner

使用 Combiner 可以大量地减小数据倾斜。在可能的情况下，Combiner 的

目的就是聚合并精简数据。

方法④：采用Map Join，尽量避免 Reduce Join。

3.常用的调优参数

1）资源相关参数

（1）以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-

default.xml）

配置参数	参数说明
mapreduce.map.memory.mb	一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。
mapreduce.reduce.memory.mb	一个ReduceTask可使用的资源上限（单位:MB），默认为1024。如果ReduceTask实际使用的资源量超过该值，则会被强制杀死。
mapreduce.map.cpu.vcores	每个MapTask可使用的最多cpu core数目，默认值: 1
mapreduce.reduce.cpu.vcores	每个ReduceTask可使用的最多cpu core数目，默认值: 1
mapreduce.reduce.shuffle.parallelcopies	每个Reduce去Map中取数据的并行数。默认值是5
mapreduce.reduce.shuffle.merge.percent	Buffer中的数据达到多少比例开始写入磁盘。默认值0.66
mapreduce.reduce.shuffle.input.buffer.percent	Buffer大小占Reduce可用内存的比例。默认值0.7
mapreduce.reduce.input.buffer.percent	指定多少比例的内存用来存放Buffer中的数据，默认值是0.0

（2）应该在YARN启动之前就配置在服务器的配置文件中才能生效（yarn-

default.xml）

配置参数	参数说明
yarn.scheduler.minimum-allocation-mb	给应用程序Container分配的最小内存，默认值：1024
yarn.scheduler.maximum-allocation-mb	给应用程序Container分配的最大内存，默认值：8192
yarn.scheduler.minimum-allocation-vcores	每个Container申请的最小CPU核数，默认值：1
yarn.scheduler.maximum-allocation-vcores	每个Container申请的最大CPU核数，默认值：32
yarn.nodemanager.resource.memory-mb	给Containers分配的最大物理内存，默认值：8192

（3）Shuffle性能优化的关键参数，应在YARN启动之前就配置好

（mapred-default.xml）

配置参数	参数说明
mapreduce.task.io.sort.mb	Shuffle的环形缓冲区大小，默认100m
mapreduce.map.sort.spill.percent	环形缓冲区溢出的阈值，默认80%

2）容错相关参数（MapReduce性能优化）

配置参数	参数说明
mapreduce.map.maxattempts	每个Map Task最大重试次数，一旦重试次数超过该值，则认为Map Task运行失败，默认值：4。
mapreduce.reduce.maxattempts	每个Reduce Task最大重试次数，一旦重试次数超过该值，则认为Map Task运行失败，默认值：4。
mapreduce.task.timeout	Task超时时间，经常需要设置的一个参数，该参数表达的意思为：如果一个Task在一定时间内没有任何进入，即不会读取新的数据，也没有输出数据，则认为该Task处于Block状态，可能是卡住了，也许永远会卡住，为了防止因为用户程序永远Block住不退出，则强制设置了一个该超时时间（单位毫秒），默认是600000（10分钟）。如果你的程序对每条输入数据的处理时间过长（比如会访问数据库，通过网络拉取数据等），建议将该参数调大，该参数过小常出现的错误提示是：“AttemptID:attempt_14267829456721_123456_m_000224_0 Timed out after 300 secsContainer killed by the ApplicationMaster.”。

4.Hadoop小文件优化方法

4.1 Hadoop小文件弊端

HDFS上每个文件都要在NameNode上创建对应的元数据，这个元数据的大

小约为150byte，这样当小文件比较多的时候，就会产生很多的元数据文

件，一方面会大量占用NameNode的内存空间，另一方面就是元数据文件

过多，使得寻址索引速度变慢。

小文件过多，在进行MR计算时，会生成过多切片，需要启动过多的

MapTask。每个MapTask处理的数据量小，导致MapTask的处理时间比启动

时间还小，白白消耗资源。

4.2 Hadoop小文件解决方案

1) 小文件优化的方向：

（1）在数据采集的时候，就将小文件或小批数据合成大文件再上传

HDFS。

（2）在业务处理之前，在HDFS上使用MapReduce程序对小文件进行合

并。

（3）在MapReduce处理时，可采用CombineTextInputFormat提高效率。

（4）开启uber模式，实现jvm重用

2) Hadoop Archive

是一个高效的将小文件放入HDFS块中的文件存档工具，能够将多个小文件

打包成一个HAR文件，从而达到减少NameNode的内存使用

3) SequenceFile

SequenceFile是由一系列的二进制k/v组成，如果为key为文件名，value为

文件内容，可将大批小文件合并成一个大文件

4) CombineTextInputFormat

CombineTextInputFormat用于将多个小文件在切片过程中生成一个单独的

切片或者少量的切片。

5) 开启uber模式，实现jvm重用。默认情况下，每个Task任务都需要启

动一个jvm来运行，如果Task任务计算的数据量很小，我们可以让同一个

Job的多个Task运行在一个Jvm中，不必为每个Task都开启一个Jvm.

开启uber模式，在mapred-site.xml中添加如下配置

<!--  开启uber模式 -->
<property>
  <name>mapreduce.job.ubertask.enable</name>
  <value>true</value>
</property>

<!-- uber模式中最大的mapTask数量，可向下修改  --> 
<property>
  <name>mapreduce.job.ubertask.maxmaps</name>
  <value>9</value>
</property>
<!-- uber模式中最大的reduce数量，可向下修改 -->
<property>
  <name>mapreduce.job.ubertask.maxreduces</name>
  <value>1</value>
</property>
<!-- uber模式中最大的输入数据量，默认使用dfs.blocksize 的值，可向下修改 -->
<property>
  <name>mapreduce.job.ubertask.maxbytes</name>
  <value></value>
</property>