最近由于项目需要,需要写点基于hadoop的代码.
基于hadoop的开发环境搭建起来稍微有点麻烦。
而且程序开发完测试也不方便。
hadoop特意为eclipse提供了插件。
使用这个插件,可以大大的提高开发速度。
使用方法如下:
1. 确定eclipse是关闭的,如果不是的话,弄好之后要关了重新打开才可以。找到hadoop的安装路径,我的是hadoop-0.20.203.0 ,在/opt/hadoop/hadoop-0.20.203.0 /contrib/eclipse-plugin/下有hadoop-0.20.203-eclipse-plugin.jar,将这个jar包拷贝到eclipse安装目录下的plugins里,我的是在usr/eclipse/plugins/下,然后打开eclipse,点击主菜单上的window—preferences,在左边栏中找到Hadoop Map/Reduce,点击后在右边对话框里设置hadoop的安装路径即主目录。即将主目录设置为/opt/hadoop/hadoop-0.20.203.0 /
2、创建一个MapReduce Project,点击eclipse主菜单上的File—New—Project,在弹出的对话框中选择MapReduce Project,之后输入Project的名,例如wordcount,确定即可,然后就可以象一个普通的 Eclipse Java project 那样,添加Java类,比如你可以定义一个WordCount 类,然后将你安装的hadoop程序里的WordCount源程序代码(版本不同会有区别),我的是在hadoop-0.20.2/src/examples/org/apache/hadoop/examples/WordCount.java写到此类中(以下是源程序代码),如果是19版本以前的,添加入必要的 import 语句 ( Eclipse 快捷键 ctrl+shift+o 可以帮你),即可形成一个完整的 wordcount 程序,然后运行。
3、运行时要设置参数,点击主菜单上的Run—Run Configurations对话框左边里选java Application点右键New,右边出现对话框中Arguments,设定程序运行时的两个参数,即输入目录和输出目录,这里的路径是相对于workspace的,不是相对于hadoop安装路径的,我运行时写的是/home/hadoop/in /home/hadoop/out,之前我在/home/hadoop/里面创建了in文件夹(里面创建文件并写入内容,我的创建了两个文件f1和f2并写入了一些单词),out文件夹不用创建,否则运行时会出现错误,提示out文件夹已经存在,参数写了后点Run即可。
就这么简单。。
以上基于hadoop最新版本测试成功