hadoop编程实践（二）

最新推荐文章于 2024-12-08 21:00:00 发布

原创

最新推荐文章于 2024-12-08 21:00:00 发布 · 445 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #worcount

本文介绍了如何在集群上进行Hadoop编程，包括WordCount程序的实现步骤：添加依赖、编写程序、打包JAR，以及在本地和集群上的运行方法。详细讲解了从创建项目、配置依赖到运行结果的查看过程。

集群上使用

jar包

首先将之前FileExist文件进行打包，得到.jar文件：
将其拷贝到集群中，并使用hadoop jar命令运行：

WordCount

添加依赖

首先我们需要新建一个WordCount项目，首先要添加Hadoop的包依赖
- /usr/local/hadoop/share/hadoop/common
  - hadoop-common-xxx.jar
  - hadoop-nfs-xxx.jar
- /usr/local/hadoop/share/hadoop/common/lib 下的所有Jar包
- /usr/local/hadoop/share/hadoop/mapreduce该目录下所有JAR包
- /usr/local/hadoop/share/hadoop/mapreduce/lib目录下所有JAR包

编写程序

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;