
hive
文章平均质量分 81
andyxm
看到80后的韩寒等都有所成就、90后的人才辈出了,做为80后的我感到惭愧了,决定不再虚度年华。
展开
-
数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2012-02-02 18:14:22 · 773 阅读 · 0 评论 -
Hive-0.5中UDF和UDAF简述
一、UDF1、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/String, Hadoop IntWritable/Textc)用户提供的 map/reduce 脚本转载 2012-02-01 11:15:55 · 581 阅读 · 0 评论 -
写好Hive 程序的五个提示
转自:http://www.tbdata.org/archives/622使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右转载 2012-02-02 17:31:28 · 632 阅读 · 0 评论