hive注意事项02_数据倾斜
在海量数据查询中,数据倾斜是一个很常见的场景。普通的查询,运行了几个小时也没有结果,其原因往往是发生了数据倾斜。对数据倾斜采取相应的解决方法,将会大大提高效率。
1.数据倾斜
任务进度长时间维持在95%以上,查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为这几个reduce处理的数据量比其他大非常多,通常可能达到数倍。 耗时远远超过平均时长。
1.1关联大小表
情况:
这种情况下,大表中大量的key因为找不到小表中的匹配而分发不均匀。如果users表只有1000行数据,logs表有10亿条数据且数据倾斜特别严重,reduce过程中同样会遇到数据倾斜问题。
处理方法:
利用map join,会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map是进行了join操作,省去了reduce运行的效率也会高很多。
select /*+mapjoin(b)*/
a.c2,
b.c3
from t_large a
left join t_small b
on a.c1 = b.c1
1.2 关联字段类型不同
情况:
用户表中user_id字段为int,logs表中user_id字段既有string类型也有int类型。当按照user_id进行两个表的Join操作时,默认的map操作会按int型的id来进行分配,这样会导致所有string类型id的记录都分配到一个Reducer中。
处理方法:
需要把数字类型统一转换成字符串类型
select * from users a
left outer join logs b
on a.usr_id = cast(b.user_id as string)
1.3空值造成数据倾斜
情况:
两个表格关联时,其中一个表格的关联键值很多是空值
处理方法:
赋与空值分新的key值
select *
from log a
left outer join users b
on case when a.user_id is null then
concat(‘hive’,rand() ) else a.user_id end = b.user_id;
1.4 关联中不等式产生笛卡尔积
情况:
如果将不等条件写在where中,那么mapreduce过程中会进行笛卡尔积,运行效率特别低
处理方法:
map join能够进行不等连接的join操作,在map的过程中就完成了不等值的join操作,效率会高很多
1.5 数据本身倾斜使用聚合操作
情况:
group by代替distinct要统计某一列的去重数时,如果数据量很大,count(distinct)就会非常慢,原因与order by类似,count(distinct)逻辑导致最终只有一个Reduce任务。对1再优化:group by配置调整
处理方法:
参数调节:
hive.map.aggr=true
hive.groupby.skewindata=true
有数据倾斜的时候进行负载均衡,当选项设定为 true,生成的查询计划会有两个 MR Job。第一个 MR Job 中,Map 的输出结果集合会随机分布到 Reduce 中,每个 Reduce 做部分聚合操作,并输出结果,这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中,从而达到负载均衡的目的;第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中(这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中),最后完成最终的聚合操作。
参考引用:
HIVE数据倾斜的原因及其解决方案(HIVE调优)有实例加深理解!https://www.freesion.com/article/1776538177/
数据倾斜及一些解决方法https://blog.youkuaiyun.com/hunter95671/article/details/120576849
Hive SQL 数据倾斜总结https://www.iteye.com/blog/wx1568890809-2468736