
Annotated Hadoop
jaguar13
这个作者很懒,什么都没留下…
展开
-
Annotated Hadoop: 第一节 Hadoop是什么
1 Hadoop是什么Hadoop原来是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。下面列举hadoop主要的一些特点: 1 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据转载 2009-02-11 20:50:00 · 591 阅读 · 0 评论 -
Annotated Hadoop: 第三节 MapReduce工作原理
3 MapReduce工作原理 Map-Reduce框架的运作完全基于对,即数据的输入是一批对,生成的结果也是一批对,只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化(serialize)操作,所以它们必须要实现Writable接口,而且key的类还必须实现WritableComparable接口,使转载 2009-02-11 20:55:00 · 517 阅读 · 0 评论 -
Annotated Hadoop: 第二节 MapReduce框架结构
2 MapReduce框架结构 Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programming model),是一个用于处理和生成大规模数据集(process转载 2009-02-11 20:52:00 · 530 阅读 · 0 评论