hive中设置maptask和reducetask的数量

心动（大数据进阶）

已于 2024-06-17 16:43:58 修改

阅读量354

点赞数 3

文章标签： hive hadoop 数据仓库

于 2024-06-17 16:05:51 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_56130021/article/details/139746633

版权

maptask个数取决于：split逻辑切片的个数有关，在mapreduce中，split逻辑切片和表中文件大小和文件个数、blockSize等参数有关。

hive底层读取表默认使用的是CombineHiveInputFormat，会对小文件进行合并，

CombineHiveInputFormat底层逻辑切片计算的过程如下：

1. 如果文件大小大于split.maxsize的2倍，则形成一个独立的逻辑切片

2. 如果文件大小大于split.maxsize，但是小于split.maxsize的2倍，则拆分成两个平均大小的虚拟存储

3. 如果文件大小小于split.maxsize，则形成一个虚拟存储

4. 判断虚拟存储的文件大小是否大于split.maxSize,如果大于等于则形成一个逻辑切片如果虚拟存储的文件大小小于split.maxSize，则和下一个虚拟文件进行合并,直到大于split.maxsize，共同形成一个切片。

例如有三个文件大小，当参数设置为4M时

set mapreduce.input.fileinputformat.split.maxsize=4M

文件切分情况：

文件1：2M

文件2：6M [3M + 3M]

文件3：9M [4M + 2.5M + 2.5M ]

reduceTask个数取决于自己设置的参数值set mapreduce.job.reduces

set mapreduce.job.reduces=3

当参数set mapreduce.job.reduces=-1时

根据此公式进行选择 N=min(参数2，总输入数据量/参数1)

参数1：每个Reduce处理的数据量默认是256MB

set hive.exec.reducers.bytes.per.reducer=256000000

参数2：每个任务最大的reduce数，默认为1009

set hive.exec.reducers.max=1009

举例：假如数据量是512M 默认启动： 512/256= 2

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

心动（大数据进阶）

关注关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

hive-sql-map和reduce数量设置及决定因素

ruijungao的博客

10-25

1076

hive-sql-map和reduce数量设置及决定因素

HIVE中MAP和REDUCE数量

Miracle.Zhao的博客

04-30

2969

一、总览MR执行过程一般的 MapReduce 程序会经过以下几个过程：输入（Input）、输入分片（Splitting）、Map阶段、Shuffle阶段、Reduce阶段、输出（Final result）。 1、输入就不用说了，数据一般放在 HDFS 上面就可以了，而且文件是被分块的。关于文件块和文件分片的关系，在输入分片中说明。 2、输入分片：在进行 Map 阶段之前，MapReduce 框架会根据输入文件计算输入分片（split），每个输入分片会对应一个 Map 任务，输入分片往.

参与评论您还未登录，请先登录后发表或查看评论

Hive中map与reduce数量控制

qq_36998916的博客

03-17

1401

1. 控制hive任务中的map数和reduce数 map数量 1.多少map数量合适: 遵循两个原则：使大数据量利用合适的map数；使单个map任务处理合适的数据量； 2.主要决定因素: hdfs block-- input的文件总个数，input的文件大小，集群设置的文件块大小(默认128M) InputFormat在默认情况下会根据hadoop集群的DFS块大小进行分片，每一个分片会由一个map任务来进行处理，当然用户还是可以通过参数mapred.min.split.size参数在作业提交客户端

Hadoop MapReduce Job性能调优——修改Map和Reduce个数

aaa1117a8w5s6d的专栏

06-23

1万+

map task的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数。Input Split的大小，决定了一个Job拥有多少个map。默认input split的大小是64M（与dfs.block.size的默认值相同）。然而，如果输入的数据量巨大，那么默认的64M的block会有几万甚至几十万的Map Task，集群的网络传输会很大，最严重的是给Job Tracker的调度

Hive任务优化--控制hive任务中的map数和reduce数

热门推荐

michael_zhu_2004的专栏

12-11

1万+

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)； 2. 举例： a) 假设input目录下有1个文

Hive设置map和reduce的个数

purisuit_knowledge的专栏

08-11

1171

一、控制hive任务中的map数: 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；举例： a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数。 b) 假设in...

Hive 如何设置map和reduce个数

努力做最接地气的编程干货分享，感谢关注

01-29

505

如何设置map和reduce个数

确定hive的map和reduce的task的数量

things_use的博客

04-28

1780

Hive的底层查询原理，也是讲sql语句转化为map-reduce进行查询和计算的，所以设置正确的map和reduce的task的数量对查询效率有很重要的影响。 1. 设置mapper的task数量在分布式计算系统中，决定map数量的一个因素就是原始数据，在不加干预的情况下，原始数据有多少个块，就可能有多少个起始的task，因为每个task对应要去读取一个块的...

Hive on Tez map阶段task划分源码分析（map task个数）

lijian222491的博客

04-10

1283

Hive on Tez中map task的划分逻辑在Tez源码中，总体实现逻辑如下：（1）Tez源码中实现map task划分的逻辑为TezSplitGrouper类；具体实现方法为getGroupedSplits；（2）Tez源码中对应该部分的单元测试类为TestGroupedSplits.java（3）选择单元测试中testRepeatableSplits进行单元测试；如下图：（4）该部分可以自由造数据，例如有多少个文件目录，filesplit目录、副本路径位置、文件的大小、机架等等；

Hive如何设置Map个数和Reduce个数

weixin_47681855的博客

07-18

3963

根据输入文件估算Reduce的个数可能未必很准确，因为Reduce的输入是Map的输出，而Map的输出可能会比输入要小，所以最准确的数根据Map的输出估算Reduce的个数。比如有一个127M的文件，正常会用一个map去完成，但这个文件只有一个或者两个小字段，却有几千万的记录，如果map处理的逻辑比较复杂，用一个map任务去做，肯定也比较耗时。从Hive的角度看，小文件会开很多map，一个map开一个JVM去执行，所以这些任务的初始化，启动，执行会浪费大量的资源，严重影响性能。...

Hive 如何合理设置 Map 及 Reduce 数

TRX的博客

04-03

6114

一、概述 1.通常情况下，作业会通过 input 的目录产生一个或者多个 map 任务。主要的决定因素有：input 的文件总个数，input 的文件大小，集群设置的文件块大小。 2.是不是 map 数越多越好？答案是否定的。如果一个任务有很多小文件（远远小于块大小128m），则每个小文件也会被当做一个块，用一个 map 任务来完成，而一个 map 任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。而且，同时可执行的 map 数是受限的。 3.是不是保证每个 map 处理接近 12

map和reduce 个数的设定（Hive优化）经典

sunsiyuan521的博客

03-14

333

HIVE优化之map和reduce数量

weixin_44139651的博客

01-16

1608

如果表table_a只有一个文件，大小为120M，但包含几千万的记录，如果用1个map去完成这个任务，肯定是比较耗时的，这种情况下，我们要考虑将这一个文件合理的拆分成多个，这样就可以用多个map任务去完成。前面三个参数确定合并文件块的大小，大于文件块大小128m的，按照128m来分隔，小于128m,大于100m的，按照100m来分隔，把那些小于100m的（包括小文件和分隔大文件剩下的），进行合并。一般来讲，map 数量默认，不需要我们设置，一般情况下，Hive 自己就可以知道到底使用多少个map。

hive map reduce数量

longlovefilm的博客

11-24

439

hive设置map和reduce数量,可参考

liaonanfeng88的优快云博客

08-27

1269

如何设置map个数在hive中没有办法直接设置map个数，但是可以通过设置一个map处理的最大数据量，来设置map个数参数如下： set mapred.max.split.size=256000000; -- 决定每个map处理的最大的文件大小，单位为B set mapred.min.split.size.per.node=1; -- 节点中可以处理的最小的...

关于map task和reduce task的个数

gushuizerotoone的博客

04-13

508

先引用几段话： 1.[url]http://coderplay.iteye.com/blog/318602[/url] 11 楼 riddle_chen 2009-05-05 引用 jiwenke 写道 coderplay 写道sorry,理解能力太差, 我不是很明白你的意思．如果你是需要控制单个节点同时在执行的的mapper/reducer数．你可以通过修改slave节点配...

hive 中reduce个数设定

u011250186的博客

04-22

2492

hive 中reduce个数设定

hive提交任务如何设置map数量

最新发布

03-14

<think>嗯，用户问的是Hive如何设置Map任务的数量。这个问题我得先回忆一下Hive的调优机制。首先，Hive任务的Map数量通常是由输入数据的大小决定的，每个Map处理一个块，默认是128M。所以如果数据量大，Map数量自然多。不过用户可能想知道如何手动调整这个数量，可能是为了优化性能或者适应特定的集群资源。接下来，我需要考虑Hive中有哪些参数可以影响Map数量。记得有mapred.min.split.size和mapred.max.split.size这两个参数，或者Hive自己的版本hive.exec.mappers.bytes.per.mapper。调整这些参数可以改变每个Map处理的数据量，进而影响数量。比如，调小每个Mapper处理的数据量，就会增加Map数量，反之则减少。然后，用户可能还会遇到文件数量的问题，比如小文件太多，导致Map任务过多。这时候需要合并小文件，可以通过参数设置输入合并，比如hive.input.format和hive.merge.mapfiles，或者在任务前进行小文件合并。另外，用户可能会提到动态分区导致大量小文件，这时候应该检查是否开启了合并参数，比如hive.merge.mapfiles和hive.merge.mapredfiles，以及设置合并后的文件大小。这些参数在动态分区插入数据时特别重要，避免生成过多小文件影响性能。还需要考虑用户是否了解任务的具体执行情况，比如如何查看当前任务的Map数量，可能通过EXPLAIN命令或者日志中的Job信息。这时候可以建议用户在实际调整参数后，运行任务并观察日志中的Map数量变化，以验证参数设置是否有效。此外，用户可能有不同的场景，比如有的需要减少Map数量以减少任务启动开销，有的需要增加Map数量以提高并行度。这时候需要分情况讨论，给出不同的参数调整策略。比如处理大量小文件时，可以调整max.split.size来合并处理，减少Map数；而处理压缩文件时，尤其是不可分割的格式如GZIP，可能需要先解压或者重新压缩为可分割的格式如BZip2，才能有效控制Map数量。最后，需要提醒用户参数调优需要根据集群资源和数据特点综合考虑，避免极端设置导致性能下降。比如过多的Map任务会增加调度开销，而过少则可能导致资源利用不足。建议用户逐步调整参数，观察效果，找到最适合当前情况的配置。</think>在 Hive 中，Map 任务数量的控制主要通过以下参数和机制实现。以下是逐步说明： --- ### 一、Map 任务数量决定因素 Hive 的 Map 数量主要由以下两点决定： 1. **输入数据量**：每个 Map 处理的数据量由 `mapred.max.split.size` 决定（默认与 HDFS 块大小一致，通常为 128MB）。 2. **输入文件数量**：如果文件数较多且每个文件小于 `mapred.min.split.size`，可能每个文件对应一个 Map。 --- ### 二、核心控制参数 #### 1. 调整单个 Map 处理的数据量 $$ \text{Map 数量} = \frac{\text{总输入数据量}}{\text{mapred.max.split.size}} $$ ```sql -- 设置单个 Map 处理的最大数据量（单位：字节） SET mapred.max.split.size=256000000; -- 256MB SET mapred.min.split.size=256000000; -- 确保合并小文件 ``` #### 2. Hive 专用参数 ```sql -- 直接指定每个 Mapper 处理的数据量（Hive 2.0+） SET hive.exec.mappers.bytes.per.mapper=256000000; ``` #### 3. 文件合并优化 ```sql -- 合并小文件作为输入（减少 Map 数量） SET hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; ``` --- ### 三、特殊场景优化 #### 1. 动态分区插入小文件问题 ```sql -- 开启 Map-only 任务合并小文件 SET hive.merge.mapfiles=true; SET hive.merge.mapredfiles=true; -- 如果包含 Reduce 阶段 SET hive.merge.size.per.task=256000000; -- 合并后文件大小 SET hive.merge.smallfiles.avgsize=160000000; -- 平均文件小于此值时触发合并 ``` #### 2. 压缩文件处理 - 若使用不可分割压缩格式（如 GZIP），需先解压或改用可分割格式（如 BZip2）。 --- ### 四、验证 Map 数量 1. 通过 `EXPLAIN` 命令预判： ```sql EXPLAIN SELECT * FROM table; ``` 2. 运行任务后查看日志： ``` Hadoop job information: Number of mappers: 10; Number of reducers: 1 ``` --- ### 五、注意事项 1. **避免极端设置**：Map 数量过多会增加调度开销，过少会降低并行度。 2. **资源匹配**：需与 YARN 集群的 `yarn.scheduler.maximum-allocation-mb` 和 CPU 核心数匹配。通过调整以上参数，可有效控制 Hive 任务的 Map 数量。建议根据实际数据量和集群资源进行逐步调优。