hive注意事项02_数据倾斜_hive100亿关联10亿-优快云博客

本文链接：https://blog.youkuaiyun.com/u012338969/article/details/124761007

hive注意事项02_数据倾斜

在海量数据查询中，数据倾斜是一个很常见的场景。普通的查询，运行了几个小时也没有结果，其原因往往是发生了数据倾斜。对数据倾斜采取相应的解决方法，将会大大提高效率。

1.数据倾斜

任务进度长时间维持在95%以上，查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为这几个reduce处理的数据量比其他大非常多，通常可能达到数倍。耗时远远超过平均时长。

1.1关联大小表

情况：

这种情况下，大表中大量的key因为找不到小表中的匹配而分发不均匀。如果users表只有1000行数据，logs表有10亿条数据且数据倾斜特别严重，reduce过程中同样会遇到数据倾斜问题。

处理方法：

利用map join，会把小表全部读入内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配，由于在map是进行了join操作，省去了reduce运行的效率也会高很多。

select /*+mapjoin(b)*/
    a.c2,
    b.c3
from  t_large a
left join  t_small b
on a.c1 = b.c1

1.2 关联字段类型不同

情况：

用户表中user_id字段为int，logs表中user_id字段既有string类型也有int类型。当按照user_id进行两个表的Join操作时，默认的map操作会按int型的id来进行分配，这样会导致所有string类型id的记录都分配到一个Reducer中。

处理方法：

需要把数字类型统一转换成字符串类型

select   * from users a
left outer join logs b 
on a.usr_id = cast(b.user_id as string)

1.3空值造成数据倾斜

情况：

两个表格关联时，其中一个表格的关联键值很多是空值

处理方法：

赋与空值分新的key值

select *
 from log a
left outer join users b
 on case when a.user_id is null then 
 		concat(‘hive’,rand() ) else a.user_id end = b.user_id;

1.4 关联中不等式产生笛卡尔积

情况：

如果将不等条件写在where中，那么mapreduce过程中会进行笛卡尔积，运行效率特别低

处理方法：

map join能够进行不等连接的join操作，在map的过程中就完成了不等值的join操作，效率会高很多

1.5 数据本身倾斜使用聚合操作

情况：

group by代替distinct要统计某一列的去重数时，如果数据量很大，count(distinct)就会非常慢，原因与order by类似，count(distinct)逻辑导致最终只有一个Reduce任务。对1再优化：group by配置调整

处理方法：

参数调节：
hive.map.aggr=true
hive.groupby.skewindata=true

有数据倾斜的时候进行负载均衡，当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。