hive sql性能优化

本文探讨了大数据处理中的Join操作优化策略,包括创建中间表、使用子查询减少关联复杂性,以及如何处理NULL值和数据倾斜。提出通过选择合适的驱动表、列裁剪和filter操作来减小数据量。此外,介绍了BroadcastJoin和分层汇总等技术,以及应对数据倾斜的随机数处理方法。同时,强调了调整任务、executor和内存参数对性能的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.join
(1)建中间表(大表重复使用,逻辑重复使用,关联多逻辑复杂)
(2)建子查询(减少数据量,减少大表关联)
2.on
(1)null值处理
(2)关联字段唯一
(3)数据倾斜

  • 过滤倾斜key(关于驱动表的取,用join key分布最均匀的表作为驱动表
    做好列裁剪和filter操作,以达到两表做join的时候,数据量相对变小的效果)
  • BroadCastJoin(即map join)(使用map join让小的维度表(1000条以下的记录条数) 先进内存。在map端完成reduce)
  • 分层汇总
  • 拆分倾斜key
  • 随机数处理倾斜key(大表Join大表:
    把空值的key变成一个字符串加上随机数,把倾斜的数据分到不同的reduce上,由于null值关联不上,处理后并不影响最终结果)
    -where+分区过滤

配置参数
1.调整task(调整处理文件大小,调整partition个数)
2.调整executor
3.调整memory

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值