
hive
blue大数据
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive中小表与大表关联(join)的性能分析
转载:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。多小的表算小表?如果所谓的...原创 2014-02-24 19:35:28 · 156 阅读 · 0 评论 -
Hive SQL解析/执行计划生成流程分析
转载:http://blog.youkuaiyun.com/wf1982/article/details/9122543Hive SQL解析/执行计划生成流程分析近在研究Impala,还是先回顾下Hive的SQL执行流程吧。Hive有三种用户接口:cli (Command line interface) bin/hive或bin/hive –service cli 命令...原创 2014-02-24 19:36:16 · 495 阅读 · 0 评论 -
Hive优化总结
转载:http://sznmail.iteye.com/blog/1499789长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。map reduce作业初始化的时间是比较长的。3.对sum,count来说,不...原创 2014-02-24 19:37:41 · 124 阅读 · 0 评论