与Hadoop的第一次接触

最新推荐文章于 2025-08-08 11:08:45 发布

原创最新推荐文章于 2025-08-08 11:08:45 发布 · 767 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #运行实例

Hadoop 专栏收录该内容

2 篇文章

订阅专栏

本文记录了一位新手如何在服务器上安装配置Hadoop环境，并成功运行第一个WordCount程序的经历。包括服务器登录、文件上传、Hadoop服务启动及程序运行等关键步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来台湾那之前，一直只接触过C。来台湾后，开始接触并行的内容，发现大家用JAVA，用Hadoop，觉得自己不懂的东西实在是多，特别着急，却在Hadoop面前始终无从下手。

上周五跟老师meeting，老师让回去试着接触一下这些东西，瞬间压力倍增。

今天登陆实验室的服务器，总算是研究出来怎么用hadoop跑程序，对，不是写。。。

首先，登陆了服务器之后，进入到home目录下面，看看有哪些文件，其中如果已经有hadoop安装了，就可以再进入到hadoop文件中。

进入到home目录下面指令ls可以看到目录下面全部的文件，找到hadoop文件夹。启动Haoop的服务。

<span style="font-family:Microsoft YaHei;font-size:12px;">cd /home</span>

<span style="font-family:Microsoft YaHei;font-size:12px;">hadoop/bin/start-all.sh</span>

我是在windows下登陆的实验室服务器，所以用的是MobaXterm登陆软件，它直接可以保存登陆信息，并且能够进行文件的传输以及文件夹的建立删除，我觉得还是比较方便的。

因此需要在服务器上建立一个文件夹来存放这次测试所需要的文件，我在hadoop文件下建立了一个test文件夹，并在test下还新建了一个input文件夹，同时将电脑上自己建立的file01.txt和file02.txt文件都上传到了input文件夹中。

做到这一步的时候，其实需要的文件都已经在服务器上了，但是文件都属于服务器的本地位置。想要对文件进行Hadoop的调用需要将文件保存在文件系统上面，因此要将这些本地文件上传到文件系统上。

与本地对应的就是需要现在文件系统上面建立文件夹来存放相对应的文件：

<span style="font-family:Microsoft YaHei;font-size:12px;">bin/hadoop fs -mkdir /home/hadoop/test/input</span>

建立了一个input文件夹来存放要操作的两个txt文件，接下来就是将两个文本文件上传到这个文件夹当中

<span style="font-family:Microsoft YaHei;font-size:12px;">bin/hadoop fs -put /home/hadoop/test/input/file* /home/hadoop/test/input</span>

就是将本地input文件夹下前缀是file的文件都上传到文件系统的input下，我这里由于两个路径名称是相同的，所以感觉一样，实际上可以建立不一样的路径和名称。

最后就是运行Hadoop了，我运行的是hadoop-examples-1.2.1.jar下的wordcount程序，因此代码如下：

<span style="font-family:Microsoft YaHei;font-size:12px;">hadoop jar /home/hadoop/hadoop-examples-1.2.1.jar wordcount /home/hadoop/test/input /home/hadoop/test/output</span>

前面hadoop jar是指令，接着是运行的jar文件的路径，运行程序名称以及输入和输出的两个路径。回车后程序就开始运行了。

最后运行完成后，我准备查看运行结果，就按照官网上面的指令输入了

<span style="font-family:Microsoft YaHei;font-size:12px;"> bin/hadoop -cat /home/hadoop/test/output/part-00000</span>

但是返回给我的是没有这个文件，于是用ls指令查看了一下文件夹的内容，发现文件夹里确实没有part-00000文件，而是一系列part-r-00000文件。这个应该是与程序内容有关，在输出时候放在对应不同的文件内。因此出现这样找不到文件路径的问题时候多用ls总是没有错的。

这也算是我与hadoop的第一次接触，虽然没有自己写代码，也没有弄明白mapreduce真正的含义，但是能够开始运行程序也是一点小进步吧！

为自己加个油！