Hive数据倾斜的优化配置

最新推荐文章于 2024-12-20 16:43:35 发布

徐凤年不是真无敌

最新推荐文章于 2024-12-20 16:43:35 发布

阅读量2.3k

点赞数

文章标签： hive hadoop big data 性能优化数据倾斜

本文链接：https://blog.youkuaiyun.com/AriesLY0411/article/details/123382148

版权

本文探讨了Hive数据倾斜的原因，包括数据本身倾斜、过多的JOIN和SQL语句问题，并提出解决方案，如模型设计、控制Mapper和Reducer数量、减小数据规模以及使用LLAP等技术来提高性能和优化数据倾斜。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hive本质

Hive的本质其实就是 Hdfs+MapReduce，HDFS存储、MR执行任务

发生数据倾斜的原因

1.数据本身倾斜

内容倾斜、group by倾斜、小表Join大表

2.过多

Join过多导致Job过多、小文件过多、Mapper或Reducer过多

3.SQL语句使用问题

count（distinct）->全盘扫描

join ... where 笛卡尔乘积

关于数据倾斜见我的博客：

大数据常见问题：数据倾斜的原理及处理方案_AriesLY0411的博客-优快云博客

解决方案

模型设计

整体最优，考虑全局

合理减少表数量

sqoop:query "select ... join ..."
#数据清洗
ods -> dwd insert into ... select ... join ...

选择合适的数据建模

星型（优先考虑）、雪花、星座

维度表（静态数据）、事实表（动态数据：谁在什么时间做了什么事情）

维度退化（降维）=> 星型

充分了解业务，提前设计好预聚合

分层 => 轻量聚合

基于主题，时间维度表、用户画像、产品三级分类...

分区 => 避免交换

拉链表

压缩 => 减少体量

配置压缩，工作场景优先LZO

热点数据：内置自动优化

join:非大小表

#默认Join键对应的记录数超过该值则进行倾斜分析
set hive.skewjoin.key=100000;
#默认false，如果Join键倾斜则设为true
set hive.optimize.skewjoin=true
#默认10000，倾斜处理mapper数量上限
set hive.skewjoin.mapjoin.map.tasks=10000;
#默认32M，倾斜最小切片大小
set hive.skewjoin.mapjoin.min.split=32M