Hive优化系列之Map与Reduce数量选择

本文探讨了Hive中MapTask和ReduceTask的数量选择优化,包括MapTask的数量由输入文件大小和分片尺寸决定,以及如何通过合并小文件、调整参数来优化。同时介绍了ReduceTask的数量对性能的影响,以及如何根据数据量和集群资源手动调整reduce任务数,以提高Hive查询效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

注意,以下操作都是针对非分桶表

map数量

  • 算法
    • MapTask的个数=输入文件总大小/分片尺寸,个人理解就是输出的文件数量
      • 原因:系统对输入的源文件依照Block的尺寸分片,并在执行Job时安排一个Map Task处理一个Block的
    • 或者由mapred.map.task数量决定,但是如果这个参数不合理的话,会失效
    • 小文件不分片
    • 压缩文件无法被切分
  • 优化建议
    • 优化原因
      • map数量过少则导致并发度减小,job过长;若大量作业,则会堵塞
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值