Hive优化系列之Map与Reduce数量选择

最新推荐文章于 2025-06-26 16:55:52 发布

斜月明寒草

最新推荐文章于 2025-06-26 16:55:52 发布

阅读量2.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据 hive MapReduce hive优化文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42306464/article/details/80497400

本文探讨了Hive中MapTask和ReduceTask的数量选择优化，包括MapTask的数量由输入文件大小和分片尺寸决定，以及如何通过合并小文件、调整参数来优化。同时介绍了ReduceTask的数量对性能的影响，以及如何根据数据量和集群资源手动调整reduce任务数，以提高Hive查询效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注意，以下操作都是针对非分桶表

map数量

算法
- MapTask的个数=输入文件总大小/分片尺寸，个人理解就是输出的文件数量
  - 原因：系统对输入的源文件依照Block的尺寸分片，并在执行Job时安排一个Map Task处理一个Block的
- 或者由mapred.map.task数量决定，但是如果这个参数不合理的话，会失效
- 小文件不分片
- 压缩文件无法被切分
优化建议
- 优化原因
  - map数量过少则导致并发度减小，job过长；若大量作业，则会堵塞

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。