Hadoop小计

Hadoop这个东西之前就听说过,但是,一直没有用得上的地方,也就一直没有去学它。现在,毕设要用上了,就打算好好学一下。今天(2014-3-24)开始折腾它,发现网上的资料真是多的不能再多了,同时,也是非常的乱。尤其,在针对不同的Hadoop版本上,可能是因为Hadoop还在快速发展,学习资料方面还在跟进中,官方wiki好像都没有完全将概念整理好。现在,整理整理我已经找到的资料。

前置要求

机器的要求

开发机器

4G内存是至少的,2G内存跑起来十分卡。

Hadoop集群

官方讨论

操作系统&Java要求

  1. Java 1.6.x or higher, preferably from Sun
  2. Linux and Windows are the supported operating systems, but BSD, Mac OS/X, and OpenSolaris are known to work. (Windows requires the installation of Cygwin). 

来自官方FAQ

版本

Hadoop版本

  1. 0.19.x-0.20.x
  2. 0.23.x
    • MapReduce2引入,MapReduce NextGen 又叫YARN又叫MRv2
    • ResourceManager、NodeManager引入,替代JobTracker、TaskTracker。早期版本的书中会提到后两者,但现在实际上看到的是前两者的概念。
  3. 1.x
  4. 2.2.x 我所采用的版本
  5. 2.3.x

HBase版本

官方给出的Hadoop和HBase的组合方式矩阵,看这里

  1. HBase-0.92.x
  2. HBase-0.94.x
  3. HBase-0.96.0
  4. HBase-0.98.0(Hadoop-2.2.0,Hadoop-2.x)

Nutch版本

  1. Nutch 1.x: A well matured, production ready crawler. 1.x enables fine grained configuration, relying on Apache Hadoop™ data structures, which are great for batch processing.
  2. Nutch 2.x: An emerging alternative taking direct inspiration from 1.x, but which differs in one key area; storage is abstracted away from any specific underlying data store by using Apache Gora™ for handling object to persistent mappings. This means we can implement an extremely flexibile model/stack for storing everything (fetch time, status, content, parsed text, outlinks, inlinks, etc.) into a number of NoSQL storage solutions.

环境搭建

Hadoop搭建

  1. Standalone mode(独立模式,开发调试使用,Hadoop刚下载下来时,默认的配置就是以这样的方式运行的。)
  2. Pseudo-distributed mode(伪集群模式,开发调试使用,搭建这种模式的资料,网上非常多。)
  3. Fully distributed mode(真集群模式)

HBase搭建

  1. Standalone mode(独立模式,官方文档)
  2. Distributed mode(分布式模式,官方文档)

Eclipse插件

  1. 编译hadoop 1.2.1 Hadoop-eclipse-plugin插件
  2. 编译hadoop 2.x Hadoop-eclipse-plugin插件

资料

Hadoop书籍

从我找到书来看,好像没有跟上最新的版本(稳定版2.2.0,最新版2.3.0)。

  1. Hadoop: The Definitive Guide Third Edition
  2. Hadoop Real-World Solutions Cookbook
  3. Hadoop in Action(这本书的讲述方式比较适合人类正常的学习过程,完全从零开始,从一步步教你搭建集群,再在上面写程序。上面那两本,一开始就假设了集群已经搭建好了。唯一的问题是,Hadoop版本有点老(2010年写的),它说的和我看到的有很多地方不一样。作者没说它是什么版本的,估计是0.20.0左右的。)
  4. Pro Hadoop
  5. 官方书籍列表 2.x确实很少。

Hadoop相关论文

官方列表

Hadoop相关文章


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值