hadoop中mapred.tasktracker.map.tasks.maximum的设置

最新推荐文章于 2024-03-22 19:01:44 发布

转载最新推荐文章于 2024-03-22 19:01:44 发布 · 1.8k 阅读

·

1

·

文章标签：

#mapreduce #单机map个数设置 #slot

mapreduce参数优化专栏收录该内容

1 篇文章

订阅专栏

本文介绍如何通过调整Hadoop集群中的参数提高查询效率。针对特定场景，如查询大量用户操作日志，通过修改mapred.tasktracker.map.tasks.maximum为CPU核心数，将查询时间从5分钟缩短至3分钟以内。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目前，我们邮件的一部分log已经迁移到Hadoop集群上

并由Hive来执行相关的查询

hadoop中默认的mapred.tasktracker.map.tasks.maximum设置是2

也即：每一个tasktracker同时运行的map任务数为2

照此默认设置，查询80天某用户的操作日志，耗时5mins, 45sec

经过测试，发现将mapred.tasktracker.map.tasks.maximum设置为节点的cpu cores数目或者cpu cores数目减1比较合适

此时的运行效率最高，大概花费3mins, 25sec

我们现在的机器都是8核的，所以最终配置如下：

mapred.tasktracker.map.tasks.maximum
8
The maximum number of map tasks that will be run
simultaneously by a task tracker.

而对于mapred.map.tasks（每个job的map任务数）值，hadoop默认值也为2

可以在执行hive前，通过set mapred.map.tasks=24来设定

但由于使用hive，会操作多个input文件，所以hive默认会把map的任务数设置成输入的文件数目

即使你通过set设置了数目，也不起作用…

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。