
hive
文章平均质量分 75
liuhongxingrs
这个作者很懒,什么都没留下…
展开
-
hive中reduce输出大文件的处理
问题1:hive表对应的数据含有很多空文件或者很多较大文件原因:最本质原因是数据倾斜导致分配到reduce的数据量差别所致,这些空文件会占据namenode的内存,也会影响map的数目。解决方案1: 在hadoop本身OutputFormat的接口中org.apache.hadoop.mapreduce.lib.output.LazyOutputFormat倒可以在hadoop层面解决,原创 2012-01-16 13:55:01 · 5339 阅读 · 0 评论 -
hive的multi-distinct可能带来性能恶化
目前hive的版本支持multi-distinct的特性,这个在用起来比较方便,但是在此特性下面无法开启防数据倾斜的开关(set hive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化,如日志中常常统计pv,Uv,独立ip数,独立session原创 2012-01-18 09:27:41 · 4946 阅读 · 0 评论