hive sql性能优化

最新推荐文章于 2024-11-26 11:59:09 发布

Mr Fmy

最新推荐文章于 2024-11-26 11:59:09 发布

阅读量406

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据电商离线数仓文章标签： hive sql

本文链接：https://blog.youkuaiyun.com/weixin_42908473/article/details/120791124

大数据同时被 2 个专栏收录

10 篇文章

订阅专栏

电商离线数仓

2 篇文章

订阅专栏

本文探讨了大数据处理中的Join操作优化策略，包括创建中间表、使用子查询减少关联复杂性，以及如何处理NULL值和数据倾斜。提出通过选择合适的驱动表、列裁剪和filter操作来减小数据量。此外，介绍了BroadcastJoin和分层汇总等技术，以及应对数据倾斜的随机数处理方法。同时，强调了调整任务、executor和内存参数对性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.join
(1)建中间表(大表重复使用,逻辑重复使用,关联多逻辑复杂)
(2)建子查询(减少数据量,减少大表关联)
2.on
(1)null值处理
(2)关联字段唯一
(3)数据倾斜

过滤倾斜key(关于驱动表的取，用join key分布最均匀的表作为驱动表
做好列裁剪和filter操作，以达到两表做join的时候，数据量相对变小的效果)
BroadCastJoin(即map join)(使用map join让小的维度表（1000条以下的记录条数）先进内存。在map端完成reduce)
分层汇总
拆分倾斜key
随机数处理倾斜key(大表Join大表：
把空值的key变成一个字符串加上随机数，把倾斜的数据分到不同的reduce上，由于null值关联不上，处理后并不影响最终结果)
-where+分区过滤

配置参数
1.调整task(调整处理文件大小,调整partition个数)
2.调整executor
3.调整memory