
hadoop
ldcaws
这个作者很懒,什么都没留下…
展开
-
下一代Apache Hadoop MapReduce框架的架构
背景随着集群规模和负载增加,MapReduce JobTracker在内存消耗,线程模型和扩展性/可靠性/性能方面暴露出了缺点,为此需要对它进行大整修。需求当我们对Hadoop MapReduce框架进行改进时,需要时刻谨记的一个重要原则是用户的需求。近几年来,从Hadoop用户那里总结出MapReduce框架当前最紧迫的需求有:(1)可靠性(Rel转载 2015-03-17 14:56:23 · 643 阅读 · 0 评论 -
相比于MRv1,YARN带来的优势是什么?
最近一段时间,经常看到有人在微博上说,“很多公司暂时用不到YARN,因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台,甚至将来几万台”。这完全是一种错误的观念,在Hadoop高速发展的时代,必须更正。实际上,上述观念只看到了YARN的扩展性(Scalability),扩展性是可用可不用的特性,中小型公司将YARN部署到小集群(按照IBM观点,集群规模小于200转载 2015-03-17 15:08:43 · 1532 阅读 · 0 评论 -
Hadoop版本选择探讨
由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。1. Apache Hadoop1.1 Apache版本衍化截至目前(2012年12月23日),Apache Hadoop版本分为两代,我们将第一代Hado转载 2015-03-17 15:11:54 · 512 阅读 · 0 评论 -
如何编写YARN应用程序
(注意:本文的分析基于Hadoop trunk上的“Revision 1452188”版本,具体可参考:http://svn.apache.org/repos/asf/hadoop/common/branches/branch-2/。)1. 概述YARN是一个资源管理系统,负责集群资源的管理和分配。如果想要将一个新的应用程序运行在YARN之上,通常需要编写两个组转载 2015-03-17 15:20:21 · 704 阅读 · 0 评论 -
Hadoop、MapReduce、YARN和Spark的区别与联系
(1) Hadoop 1.0第一代Hadoop,由分布式存储系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成,对应Hadoop版本为Hadoop 1.x和0.21.X,0.22.x。(2) Hadoop 2.0第二代Hadoop,为克服Had原创 2015-03-17 16:37:54 · 11537 阅读 · 2 评论 -
HaLoop—适用于迭代计算的Hadoop
对Hadoop进行修改,使之能够适用于迭代计算,将原生的Hadoop中每一个job中一个map-reduce对改成多个map-reduce对,这样job就可以复用(如果不复用,每一个job完成之后都会把reduce的结果写进Hdfs文件,同时启动新的job时会从Hdfs中读文件,造成I/O压力),实现了在job内就可以控制迭代,同时由于迭代计算本身的特性(不变的数据invariant data会多转载 2015-06-02 16:37:20 · 1051 阅读 · 0 评论 -
Twister—迭代MapReduce
传统MapReduce的特点:一个job只有一个map-reduce对,map完成之后将结果写入本地磁盘,所有的map任务都完成之后,reduce才开始执行,需要网络I/O传输数据,reduce执行完成之后将结果写入Hdfs。迭代计算的特点:一、input data由两部分组成,即static和variable数据,而且大部分情况下static数据比variable数据量大很多,s转载 2015-06-02 16:47:18 · 1095 阅读 · 0 评论