近来开始一个人撸hadoop,几天下来稍作记录。
理论学习方面,如要深入了解内部机制,谷歌三大论文是基础,尤其是mapreduce一文推荐。
鄙人还借了一本权威指南来看,此书第二版是华师大的几位老师翻译的,如英文较好可直接阅读原版。
早期的map-reduce的架构还是比较清楚的,job tracker居中统筹系统任务,task tracker分别监视机器作业。
但在新一代的map-reduce框架yarn中,分设了ResourceManager,ApplicationMaster 与 NodeManager来做管理,解决了老版本中的一些性能瓶颈。
参见http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/
本着追逐时代脚步的想法,在hust的镜像下了一个比较新的hadoop版本2.4.0
如上文所言,安装过程与网络上居多的老版本教程中所写总是有些区别,此时就得发挥智慧随机应变了。
在ubuntu上启动hadoop跑完wordcount程序,查看下词数统计的结果,就算是测试成功了。
下一步准备适配eclipse。