
hadoop生态体系
新之
这个作者很懒,什么都没留下…
展开
-
Hive中小表与大表关联(join)的性能分析
经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。 多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2个只有几条记录的表做关联查询,这应该算是小表了,在查看reduce的执行日志时转载 2017-04-26 14:49:02 · 790 阅读 · 0 评论 -
hadoop数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2017-05-09 14:22:10 · 8869 阅读 · 1 评论 -
开源IndexR:如何对上千亿的数据进行秒级探索式分析
目前,行业中的大数据分析架构一般使用基于 Hadoop 体系的分布式计算引擎 + 分布式存储系统架构(如下图)。 Hadoop 体系的架构特点是上层解决计算问题,下层解决存储问题。它可以让开发者在不了解分布式底层细节的情况下,进行分布式程序的开发。但是,这种架构同时也存在一些问题: 整合工作量大 分布式存储目前的标准比较统一,一般使用 HDFS。HDF转载 2017-06-16 10:14:25 · 3843 阅读 · 1 评论