Hive的数据倾斜问题

最新推荐文章于 2024-05-25 11:32:41 发布

IronWring_Fly

最新推荐文章于 2024-05-25 11:32:41 发布

阅读量336

点赞数

CC 4.0 BY-SA版权

分类专栏：数据库大数据学习之路

本文链接：https://blog.youkuaiyun.com/IronWring_Fly/article/details/101370515

23 篇文章

订阅专栏

17 篇文章

订阅专栏

hive的数据倾斜

作业已经完成了99%，就剩下1%，结果跑了很久，这大概率就是出现了数据倾斜。

利用参数调节
- hive.map.aggr = true , map端部分聚合，相当于combiner
- hive.groupby.skewindata=true
  
  当有数据倾斜发生的时候，会执行两个mr任务。第一个阶段，map会将数据随机发送到reduce中，每个reduce做部分的聚合操作，这样可以保证结果是均衡的。第二阶段，map会根据group by key将key相同的数据发送到同一个reduce中，保证结果的正确性。
SQL语句调节
- join语句
  - 选取key分布表均匀的数据表作为驱动表
  - 做好列裁切和filter操作，达到两表join后数据量相对变小的效果。
  - 大小表join时，利用map join，将小表加载进内存，省略reduce阶段
  - 大表join大表的时候，对于空值key，可以采用赋随机值的方法，分散到不同的reduce上。（因为key值为空，最后肯定也匹配不上，所以不影响）
- count distinct
  - 如果仅仅只是计算count distinct，可以直接将key为空的过滤掉。
  - 如果还有其他运算，则需要group by，然后将key为空的值进行处理，最后union回去。
- group by维度过小（换句话说，也可以理解为数据值重复的很少。）
  - 用 sum() group by 的方式替换 count( distinct )完成计算。
如果用sql语句的优化效果不好的话，可以直接将倾斜的数据单独拎出来进行分析。

select * from log a
  join users b
  on a.user_id is not null
  and a.user_id = b.user_id
union all
select * from log a
  where a.user_id is null;

select *
  from log a
  left outer join users b
  on case when a.user_id is null then concat(‘hive’,rand() ) else a.user_id end = b.user_id;