hive注意事项02_数据倾斜

hive注意事项02_数据倾斜

在海量数据查询中,数据倾斜是一个很常见的场景。普通的查询,运行了几个小时也没有结果,其原因往往是发生了数据倾斜。对数据倾斜采取相应的解决方法,将会大大提高效率。

1.数据倾斜

任务进度长时间维持在95%以上,查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为这几个reduce处理的数据量比其他大非常多,通常可能达到数倍。 耗时远远超过平均时长。

1.1关联大小表

情况:

这种情况下,大表中大量的key因为找不到小表中的匹配而分发不均匀。如果users表只有1000行数据,logs表有10亿条数据且数据倾斜特别严重,reduce过程中同样会遇到数据倾斜问题。

处理方法:

利用map join,会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map是进行了join操作,省去了reduce运行的效率也会高很多。

select /*+mapjoin(b)*/
    a.c2,
    b.c3
from  t_large a
left join  t_small b
on a.c1 = b.c1

1.2 关联字段类型不同

情况:

用户表中user_id字段为int,logs表中user_id字段既有string类型也有int类型。当按照user_id进行两个表的Join操作时,默认的map操作会按int型的id来进行分配,这样会导致所有string类型id的记录都分配到一个Reducer中。

处理方法:

需要把数字类型统一转换成字符串类型

select   * from users a
left outer join logs b 
on a.usr_id = cast(b.user_id as string)

1.3空值造成数据倾斜

情况:

两个表格关联时,其中一个表格的关联键值很多是空值

处理方法:

赋与空值分新的key值

select *
 from log a
left outer join users b
 on case when a.user_id is null then 
 		concat(‘hive’,rand() ) else a.user_id end = b.user_id;

1.4 关联中不等式产生笛卡尔积

情况:

如果将不等条件写在where中,那么mapreduce过程中会进行笛卡尔积,运行效率特别低

处理方法:

map join能够进行不等连接的join操作,在map的过程中就完成了不等值的join操作,效率会高很多

1.5 数据本身倾斜使用聚合操作

情况:

group by代替distinct要统计某一列的去重数时,如果数据量很大,count(distinct)就会非常慢,原因与order by类似,count(distinct)逻辑导致最终只有一个Reduce任务。对1再优化:group by配置调整

处理方法:

参数调节:
hive.map.aggr=true
hive.groupby.skewindata=true

有数据倾斜的时候进行负载均衡,当选项设定为 true,生成的查询计划会有两个 MR Job。第一个 MR Job 中,Map 的输出结果集合会随机分布到 Reduce 中,每个 Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中,从而达到负载均衡的目的;第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中(这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中),最后完成最终的聚合操作。

参考引用:

HIVE数据倾斜的原因及其解决方案(HIVE调优)有实例加深理解!https://www.freesion.com/article/1776538177/

数据倾斜及一些解决方法https://blog.youkuaiyun.com/hunter95671/article/details/120576849

Hive SQL 数据倾斜总结https://www.iteye.com/blog/wx1568890809-2468736

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

雪龙无敌

你的鼓励是我们一起前进的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值