
Hive
小敏呀
这个作者很懒,什么都没留下…
展开
-
Hive - hive.groupby.skewindata环境变量与负载均衡
HiveQL 去重操作 和SQL一样,HiveQL中同样支持DISTINCT操作,如下示例: (1) SELECT count(DISTINCT uid) FROM log (2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip (3) SELECT ip, count(DISTINCT uid, uname) FROMl转载 2016-02-17 17:09:45 · 377 阅读 · 0 评论 -
Hive优化技巧
使用Hive有一段时间了,目前发现需要进行优化的较多出现在出现join、distinct的情况下,而且一般都是reduce过程较慢。 Reduce过程比较慢的现象又可以分为两类: 情形一:map已经达到100%,而reduce阶段一直是99%,属于数据倾斜 情形二:使用了count(distinct)或者group by的操作,现象是reduce有进度但是进度缓慢,31%-3转载 2016-02-17 17:11:37 · 548 阅读 · 0 评论