在Reduce运行中,有时出现内存溢出错误,抛出的异常信息如下:
Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#1 at
org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:134) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:387) at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1754) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158) Caused by: java.lang.OutOfMemoryError: Java heap space at org.apache.hadoop.io.BoundedByteArrayOutputStream.(BoundedByteArrayOutputStream.java:56) at org.apache.hadoop.io.BoundedByteArrayOutputStream.(BoundedByteArrayOutputStream.java:46) at org.apache.hadoop.mapreduce.task.reduce.InMemoryMapOutput.(InMemoryMapOutput.java:63) at org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl.unconditionalReserve(MergeManagerImpl.java:309) at org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl.reserve(MergeManagerImpl.java:299) at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyMapOutput(Fetcher.java:511) at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyFromHost(Fetcher.java:333) at org.apache.hadoop.mapreduce.task.reduce.Fetcher.run(Fetcher.java:193)
解析Redue Shuffle过程和参数
- EventFetcher 负责向MRAppMaster获取已经运行完的Map信息,这些信息包括Map编号和运行Map的服务器。
- ShuffleScheduler负责调度Shuffle任务。
- 各Fetcher线程从ShuffleScheduler取任务,进行实际Map数据获取。默认5个Fetcher线程 。
MergeManager
MergeManager是重要的数据结构,用于管理shuffle的数据。它尽量使用内存来缓存shuffle的数据,提高效率,如果缓存不了,则输出到硬盘上。
MergeManager的几个重要参数
mapreduce.reduce.shuffle.input.buffer.percent:
Reduce的内存缓冲区大小,内存比例,默认是0.7。Shuffle内存为总内存 * 0.7。
mapreduce.reduce.shuffle.memory.limit.percent:
单个shuffle任务能使用的内存限额,默认是0.25,即为 Shuffle内存 * 0.25。
低于此值可以输出到内存,否则输出到磁盘。
mapreduce.reduce.shuffle.merge.percent:默认值为0.66。
shuffle的数据量到Shuffle内存 * 0.66的时候,启动合并。也就是内存到磁盘merge的启动门限,把内存中数据合并到磁盘。
我们把reduce过程中的内存到磁盘的门限降低,防止内存溢出。因此修改mapred-site.xml文件内容如下:
<configuration>
<property>
<name>mapreduce.reduce.shuffle.merge.percent</name>
<value>0.3</value>
</property>
</configuration>