一、目的及意义
- 学会搭建伪分布式集群环境,以便于理解MapReduce及HDFS;
- 学会使用eclipse直接与伪分布式集群进行连接,以便于直接向集群提交作业;
现在网络上的文章多是介绍上述两点中的一点,例如:
a、如何搭建伪分布式集群;
b、如何在eclipse中连接已建立好的伪分布式集群;
c、大部分介绍都是基于hadoop1.x系列。本文内容
a、较详细列出在CentOS中搭建伪分布式集群
b、详细给出Windows中的Eclipse与伪分布式集群的连接过程;
c、采用hadoop2.x系列。
二、软件列表
序号 | 软件名称 | 功能 |
---|---|---|
1 | hadoop-2.6.0-x64.tar.gz | 实现分布式计算,下载 |
2 | eclipse kepler | 集成开发平台,下载 |
3 | hadoop-eclipse-kepler-plugin-2.4.1 | 用于连接eclipse与hadoop,下载 |
4 | jdk1.7.0_79 | 解释器,windows版64位,Linux版 |
三、安装步骤
1、Windows下Hadoop开发环境的安装及配置
Java安装及环境变量配置
Windows下与linux下都需要安装Java,配置java环境变量。参考: windows以及Linux下java1.7.x的安装与配置
CentOS下安装JDK的三种方法
eclipse及hadoop-eclipse-kepler-plugin插件安装
eclipse是绿色版的,下载后解压即可使用,然后将hadoop-eclipse-kepler-plugin插件拷贝到eclipse文件夹下的plugins文件夹下即可。
a、Windows下设置hadoop环境变量
变量名称:HADOOP_HOME
变量内容:hadoop的解压后的文件夹,如:D:\hadoop-2.6.0
b、运行eclipse文件
c、指定hadoop的路径
d、若preference中没有发现hadoop Map/Reduce选项,说明插件没有被eclipse发现并加载到eclipse环境中,可参考如下步骤解决:
- 创建一个 Eclipse 快捷启动方式,右键单击快捷方式->选属性->在目标栏中加入一个“ -clean ”参数(前面有个空格),如果启动 eclipse 后找到你所安装的新插件后,在下次启动之前把参数 clean 去掉就可以了。
- 把eclipse安装目录下的configuration/org.eclipse.update和runtime的目录整个删除,重启eclipse。(org.eclipse.update 文件夹下记录了插件的历史更新情况,它只记忆了以前的插件更新情况,而新安装的插件它并不记录,所以删除掉这个文件夹就可以解决这个问题了,不过删除掉这个文件夹后, eclipse 会重新扫描所有的插件,此时再重新启动 eclipse 时可能会比刚才稍微慢点)
- 如果 Eclipse 启动还是找不到插件的话,在 eclipse/configuration 目录下的 config.ini 文件中加入一行 : osgi.checkConfiguration=true 这样它就会寻找并安装插件。注意找到插件后可以把该行注释掉 ( 去掉 ), 这样以后每次启动就不会因为寻找插件而显得慢了。
本地开发环境配置
a、File->New Project->Map/Reduce Project
b、导入运行MapReduce所需的外部jar包
分别导入以下文件夹下的包:
- hadoop-2.6.0/share/hadoop/mapreduce下的所有jar包(子文件夹下的jar包不用)
- hadoop-2.6.0/share/hadoop/common下的hadoop-common-2.6.0.jar
- hadoop-2.6.0/share/hadoop/common/lib下的所有包
- hadoop-2.6.0/share/hadoop/yarn下的所有包(子文件夹下的jar包不用)
- hadoop-2.6.0/share/hadoop/hdfs下的hadoop-hdfs-2.6.0.jar
- 注意:上述文件夹下有些包用不着,初学者不好区分,所以都加载进来。
c、导入两个外部文件到项目src文件夹中。
假设org文件夹以及log4j.properties文件存在于一个“附加文件”中。
右键单击src->import->File system->附加文件