Mapreduce任务中map和reduce数量设置

最新推荐文章于 2025-06-26 16:55:52 发布

原创最新推荐文章于 2025-06-26 16:55:52 发布 · 2k 阅读

2 ·

CC 4.0 BY-SA版权

HDFS&MR&YARN 专栏收录该内容

7 篇文章

订阅专栏

本文详细解析了Hadoop MapReduce任务中map和reduce数量的设置方法，包括通过调整split块大小来控制map数量，以及在mapred-default.xml中直接设置reduce数量的策略。

从MR的运行机制可知，map数量受split（map输入数据块大小）影响，reduce数量受partition（map shuffle输出）影响。

1.map数量设置

hadoop并没有直接提供设置map数量的参数，而是通过调整split块大小调整，通过调整hadoop2.x mapreduce.input.fileinputformat.split.maxsize和mapreduce.input.fileinputformat两个参数决定split块大小：
split_size = max(minsize,min(maxsize,blocksize))
即split_size取三者中间值。
在提交任务中设置方式：

$hadoop jar XXXX.jar wordcont -Dmapreduce.input.fileinputformat.split.maxsize=xxx -Dmapreduce.input.fileinputformat.split.minsize=xxx

或者在代码中设置：

FileInputFormat.setMaxInputSplitSize(job, 20971520l);
FileInputFormat.setMinInputSplitSize(job, 1000);

注意：mapreduce有这样的机制，最后一个文件的输入如果小于split_size*1.1,那么只会启动一个Map来执行这个job，避免一个129M文件，第一个Map跑了128M的数据，第二个Map只跑了1M的数据。

2.reduce设置

mapred-default.xml中可直接设置mapred.reduce.tasks=xx

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

forerunner123

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

(17)Hive ——MR任务的map与reduce个数由什么决定？

爱吃辣条的博客

02-14

2561

Hive ——MR任务的map与reduce个数由什么决定？

hive-sql-map和reduce数量设置及决定因素

ruijungao的博客

10-25

1187

hive-sql-map和reduce数量设置及决定因素

参与评论您还未登录，请先登录后发表或查看评论

hadoop中map和reduce的数量设置问…

nuoline的专栏

02-25

1991

map和reduce是hadoop的核心功能，hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算，从这个观点来看，如果将map和reduce的数量设置为1，那么用户的任务就没有并行执行，但是map和reduce的数量也不能过多，数量过多虽然可以提高任务并行度，但是太多的map和reduce也会导致整个hadoop框架因为过度的系统资源开销而使任务失败。所以用户在提交m

Hive性能调优之合理调整Map与Reduce数量

寒暄的博客

07-18

1701

合理设置map数量 map阶段主要涉及两个问题：小文件太多或者大文件过于负责。对应的解决方案就是减少map数量与增加map数量。减少map数就是增加每个map处理的文件数量，用于处理大量小文件，间接加快速度。 -- CombineHiveInputFormat有对小文件合并的处理，hive2.X已经默认使用CombineHiveInputFormat set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

Mapreduce中Map与Reduce任务的个数

热门推荐

雾幻的博客

04-11

1万+

1、Map任务的个数读取数据产生多少个Mapper？？ Mapper数据过大的话，会产生大量的小文件,过多的Mapper创建和初始化都会消耗大量的硬件资源 Mapper数太小，并发度过小，Job执行时间过长，无法充分利用分布式硬件资源 Mapper数量由什么决定？？（1）输入文件数目（2）输入文件的大小（3）配置参数这三个因素决定的。输入的目录中文件的数量决定多少个map会...

Hadoop如何计算map数和reduce数

FZ的博客

03-10

570

Hadoop如何计算map数和reduce数 Hadoop在运行一个mapreduce job之前，需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数，当一个job提交时，jobclient首先分析job被拆分的split数量，然后吧job.split文件放置在HDFS中，一个job的MapTask数量就等于split的个数。

【MapReduce篇06】MapReduce之MapJoin和ReduceJoin1

08-04

MapReduce之MapJoin和ReduceJoin MapReduce是一种分布式计算模型，广泛应用于大数据处理和分析领域。其中，Join操作是 MapReduce 中的一种基本操作，用于连接来自不同数据源的数据。今天，我们将讲解 MapReduce 之 ...

深入理解MapReduce：从Map到Reduce的工作原理解析

KKwan的博客

03-29

5159

当谈到分布式计算和大数据处理时，MapReduce是一个经典的范例。它是一种编程模型和处理框架，用于在大规模数据集上并行运行计算任务。MapReduce包含三个主要阶段：Map、Shuffle 和 Reduce。**

HIVE中MAP和REDUCE数量

Miracle.Zhao的博客

04-30

3053

一、总览MR执行过程一般的 MapReduce 程序会经过以下几个过程：输入（Input）、输入分片（Splitting）、Map阶段、Shuffle阶段、Reduce阶段、输出（Final result）。 1、输入就不用说了，数据一般放在 HDFS 上面就可以了，而且文件是被分块的。关于文件块和文件分片的关系，在输入分片中说明。 2、输入分片：在进行 Map 阶段之前，MapReduce 框架会根据输入文件计算输入分片（split），每个输入分片会对应一个 Map 任务，输入分片往.

【MapReduce】Map Join和Reduce Join

HR的博客

04-07

1542

Map Join和Reduce Join俩种Join的介绍MapReduce JoinReduce JoinMap Join数据Reduce Join自定义类Mapper阶段Reduce阶段Driver阶段结果Map JoinMapper阶段Driver阶段结果俩种Join的介绍 MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题。如果数据量比较小，完全可以在内存中完成连接；如果数据量比较大，在内存进行连接操会发生内存溢出（OOM）。那么此时就可以用 Map

hadoop中map和reduce的数量设置问题

qian9140的博客

05-21

443

转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能，hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算，从这个观点来看，如果将map和reduce的数量设置为1，那么用户的任务就没有并行执行，但是map和reduce的数量也不能过多，数量过多虽然可以提高任务并行度，但是太多的map...

mapreduce--如何设置reducer的个数

momomi_2005的专栏

04-06

4235

1，在缺省情况下，一个mapreduce的job只有一个reducer；在大型集群中，需要使用许多reducer，中间数据都会放到一个reducer中处理，如果reducer数量不够，会成为计算瓶颈。 2，reducer的最优个数与集群中可用的reducer的任务槽数相关，一般设置比总槽数稍微少一些的reducer数量；hadoop文档中推荐了两个公式： 0.95*NUMBER_OF_NODE

MapReduce中的Map，Reduce个数设定

Dzhantao的博客

07-03

1万+

一、Map的个数在map阶段读取数据前，FileInputFormat会将输入文件分割成spilt，而spilt的个数决定了map的个数（一个spilt分片对应一个map）。影响map个数的因素只要有： 1）文件的大小。比如，当文件大于128M（block默认值）而小于256M时，文件会被划分成两个spilt。 2）文件的个数。FileInputFormat按文件进...

Hadoop的map任务和reduce任务的数量

linux系统、网络编程和分布式计算

11-23

1478

Hadoop的map任务和reduce任务的数量

MapReduce的Reducer数量确定

fengzaibiao的专栏

11-13

1475

Reducer的数量可以由程序员明确设置，那么设置多少Reducer可以达到较好地效果呢？Reducer的数量范围为：(0.95 ~1.75 ) * 节点数量 * 每个节点上最大的容器数。参数yarn.scheduler.minimum-allocation-mb设置了每个容器可请求的最小内存，那么最大容器数可根据总的内存除以该参数计算得出。当使用0.75时，所有的Reducer会被立即加载，并当

HIVE优化之map和reduce数量

weixin_44139651的博客

01-16

1855

如果表table_a只有一个文件，大小为120M，但包含几千万的记录，如果用1个map去完成这个任务，肯定是比较耗时的，这种情况下，我们要考虑将这一个文件合理的拆分成多个，这样就可以用多个map任务去完成。前面三个参数确定合并文件块的大小，大于文件块大小128m的，按照128m来分隔，小于128m,大于100m的，按照100m来分隔，把那些小于100m的（包括小文件和分隔大文件剩下的），进行合并。一般来讲，map 数量默认，不需要我们设置，一般情况下，Hive 自己就可以知道到底使用多少个map。

Map和Reduce任务的优化

Alexwym的博客

09-09

1599

编程总是围绕着两个问题：“如何完成这个任务”和“如何能让程序运行得更快” 因此，相对应的MapReduce计算模型的优化也就集中在两个方面：一是计算性能方面的优化；二是I/O操作方面的优化 1、任务调度两个方面的优化：一是计算方面：Hadoop总会先将任务分配给空闲的机器，使所有的任务能公平地分享系统资源；二是I/O方面：Hadoop会尽量将map任务分配给InputSplit所在的机器，...

Hive中map、reduce数量如何调整