Hadoop测试小例

最新推荐文章于 2022-05-15 18:09:38 发布

原创最新推荐文章于 2022-05-15 18:09:38 发布 · 908 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #ubuntu #测试 #virtualbox

计算机视觉专栏收录该内容

14 篇文章

订阅专栏

最近用Virtualbox装了个Ubuntu系统，搭了一个单机模式的hadoop。配置方法网上有许多，按流程仔细走一遍即可。搭好环境后，自然要测试一下，本篇使用了hadoop提供的wordcount进行测试，计算数据中的单词数量。

第一步

用putty（用啥软件随意）ssh登陆ubuntu系统，输入账号名，密码。（我用来管理hadoop的账号名是hadoop，账号名在搭环境时随意设置）。当然，你也可以直接在虚拟机的ubuntu系统下，打开命令界面，切换到管理hadoop的账号，命令是"su 账户名＂
这里写图片描述
接下来，进入hadoop安装目录下，启动hadoop。（我的hadoop放在路径/usr/local/hadoop下）
命令：

cd /usr/local/hadoop
bin/start-all.sh

这里写图片描述
出现如图所示信息，用jps查看，是否启动成功。

某些同学启动后，可能会没有DataNode这一项。这是因为， /usr/local/hadoop/hdfs/data文件夹的权限问题，输入以下命令即可解决

chmod g-w /usr/local/hadoop/hdfs/data

第二步

建立用来测试的文件夹 test，具体路径看命令。我这里在hadoop账户目录下建立，这样用hadoop账号执行时，不会有什么权限问题。

cd /home/hadoop
mkdir test

这里写图片描述
然后，在test目录下，用vi命令建立一个文本1.txt，输入以下内容并保存。（其实ｖｉ使用起来挺方便的）
hello hadoop
hello World
Hello Java
Hey man
i am a programmer

第三步

接下来，将1.txt传到hadoop上。
首先，回到hadoop安装目录下。（下面的命令都在该目录下输入）

cd /usr/local/hadoop

然后，上传到/hadoop/in（你没看错，这个目录不需要你创建，你用dir命令也看不到，试想真正的情况下，能让你随便在hadoop服务器上创建个目录？在这里，你只要想成，这个目录时hadoop服务器给你上传任务的地方）

 bin/hadoop dfs -put /home/hadoop/text/1.txt /hadoop/in

上传后，执行下面的程序（这是一条命令，不是两条，在一行输入。同样/hadoop/out目录，其实也看不到，也不需要事先创建，实际在如果事先创建了这个目录，运行命令会报错。如果报错说该目录存在，那么只要换个名即可，如/hadoop/output）

bin/hadoop jar hadoop-examples-1.2.1.jar wordcount /hadoop/in/* /hadoop/out

这里写图片描述

计算后，结果会放入/hadoop/out/part-r-00000文件中，通过以下命令查看结果

 bin/hadoop dfs -cat /hadoop/out/part-r-00000

这里写图片描述
需要注意的是：
这里面的/hadoop/out和/hadoop/in，事先不存在。不需要你用ｍｋｄｉｒ命令创建。而且这两个目录的名字也是随意的，你可以把ｏｕｔ改成ｏｕｔｐｕｔ，同理ｉｎ改成ｉｎｐｕｔ。
现在，１.txt已经存在于/hadoop/in目录下，如果我们再次上传1.txt，会提示该文件已经存在。