
大数据_hive
文章平均质量分 89
雪龙无敌
python爱数据,职位爱科技
展开
-
hive注意事项01_空值处理
1. 空值类型1.1NULLhive中null实际在HDFS中默认存储为’\N’,通过查询显示的是’NULL’。这时如果查询为空值的字段可通过语句:col is null 或者 col =’\N’ 实现。此时可用hive中与null有关的函数,如nvl,coalesce,is null等判断是否为null是为true。产生NULL值,一般都是由hive外链接引起的。1.2 ‘’‘’ 表示的是字段不为null且为空字符串,此时用 col is null 是无法查询这种值的,必须通过 aaa =='‘或原创 2022-05-13 21:46:02 · 3848 阅读 · 0 评论 -
hive注意事项02_数据倾斜
hive注意事项02_数据倾斜在海量数据查询中,数据倾斜是一个很常见的场景。普通的查询,运行了几个小时也没有结果,其原因往往是发生了数据倾斜。对数据倾斜采取相应的解决方法,将会大大提高效率。1.数据倾斜任务进度长时间维持在95%以上,查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为这几个reduce处理的数据量比其他大非常多,通常可能达到数倍。 耗时远远超过平均时长。1.1关联大小表情况:这种情况下,大表中大量的key因为找不到小表中的匹配而分发不均匀。如果users表原创 2022-05-13 22:57:27 · 222 阅读 · 0 评论