
hive
天边tbdp
一个码农,从业后端数十载
展开
-
CDH hive的mr架构配置文件的选择
我们都知道hive是在mapreduce基础上运行任务的,那么在用原创 2014-04-08 15:54:43 · 1619 阅读 · 0 评论 -
数据倾斜总结
数据倾斜总结 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的redu转载 2014-06-12 17:53:20 · 736 阅读 · 0 评论 -
浅析 Hadoop 中的数据倾斜
最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计转载 2014-06-12 17:55:49 · 603 阅读 · 0 评论 -
如何使用hadoop实现精准营销
1,从各个主页通过js发送用户信息到原创 2014-09-06 19:16:19 · 1124 阅读 · 0 评论 -
SQL on Haoop/Spark
SQL on Haoop/Spark 在批处理时代,Hive一枝独秀;在实时交互式查询时代,呈现出的则是百花齐放的局面。Hive on Tez、Hive on Spark、Spark SQL等等,目前来看也没有谁干掉谁的趋势。 所以大家在实际项目中就会遇到疑惑,我的项目该使用哪种SQL on Hadoop的解决方案。先说说“后Hive时代”主要的几种SQL on原创 2015-07-23 22:46:12 · 997 阅读 · 0 评论 -
elasticsearch-hadoop使用记录
elasticsearch-hadoop是一个深度集成Hadoop和ElasticSearch的项目,也是ES官方来维护的一个子项目,通过实现Hadoop和ES之间的输入输出,可以在Hadoop里面对ES集群的数据进行读取和写入,充分发挥Map-Reduce并行处理的优势,为Hadoop数据带来实时搜索的可能。 项目网址:http://www.elasticsearch.org/overvie转载 2015-11-18 18:13:14 · 7287 阅读 · 0 评论