Windows环境下采用eclipse连接虚拟机中的Hadoop伪分布式集群

最新推荐文章于 2025-11-22 10:51:18 发布

原创

最新推荐文章于 2025-11-22 10:51:18 发布 · 1.1w 阅读

53 ·

CC 4.0 BY-SA版权

文章标签：

#windows #eclipse #hadoop #mapreduce

一、目的及意义

学会搭建伪分布式集群环境，以便于理解MapReduce及HDFS；
学会使用eclipse直接与伪分布式集群进行连接，以便于直接向集群提交作业；
现在网络上的文章多是介绍上述两点中的一点，例如：

a、如何搭建伪分布式集群；
b、如何在eclipse中连接已建立好的伪分布式集群；
c、大部分介绍都是基于hadoop1.x系列。
本文内容

a、较详细列出在CentOS中搭建伪分布式集群
b、详细给出Windows中的Eclipse与伪分布式集群的连接过程；
c、采用hadoop2.x系列。

二、软件列表

序号	软件名称	功能
1	hadoop-2.6.0-x64.tar.gz	实现分布式计算，下载
2	eclipse kepler	集成开发平台，下载
3	hadoop-eclipse-kepler-plugin-2.4.1	用于连接eclipse与hadoop，下载
4	jdk1.7.0_79	解释器，windows版64位,Linux版

三、安装步骤

1、Windows下Hadoop开发环境的安装及配置

Java安装及环境变量配置

Windows下与linux下都需要安装Java，配置java环境变量。参考： windows以及Linux下java1.7.x的安装与配置
 CentOS下安装JDK的三种方法

eclipse及hadoop-eclipse-kepler-plugin插件安装

eclipse是绿色版的，下载后解压即可使用，然后将hadoop-eclipse-kepler-plugin插件拷贝到eclipse文件夹下的plugins文件夹下即可。
a、Windows下设置hadoop环境变量
变量名称：HADOOP_HOME
变量内容：hadoop的解压后的文件夹，如：D:\hadoop-2.6.0
b、运行eclipse文件
这里写图片描述
c、指定hadoop的路径

d、若preference中没有发现hadoop Map/Reduce选项，说明插件没有被eclipse发现并加载到eclipse环境中，可参考如下步骤解决：

创建一个 Eclipse 快捷启动方式，右键单击快捷方式->选属性->在目标栏中加入一个“ -clean ”参数（前面有个空格），如果启动 eclipse 后找到你所安装的新插件后，在下次启动之前把参数 clean 去掉就可以了。
把eclipse安装目录下的configuration/org.eclipse.update和runtime的目录整个删除，重启eclipse。（org.eclipse.update 文件夹下记录了插件的历史更新情况，它只记忆了以前的插件更新情况，而新安装的插件它并不记录，所以删除掉这个文件夹就可以解决这个问题了，不过删除掉这个文件夹后， eclipse 会重新扫描所有的插件，此时再重新启动 eclipse 时可能会比刚才稍微慢点）
如果 Eclipse 启动还是找不到插件的话，在 eclipse/configuration 目录下的 config.ini 文件中加入一行 : osgi.checkConfiguration=true 这样它就会寻找并安装插件。注意找到插件后可以把该行注释掉 ( 去掉 ), 这样以后每次启动就不会因为寻找插件而显得慢了。