Idea+Maven运行简单的Hadoop WordCount程序

最新推荐文章于 2024-11-18 16:17:50 发布

原创

最新推荐文章于 2024-11-18 16:17:50 发布 · 3k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #wordcount #大数据

本文介绍了如何在Manjora Linux上，利用Idea Ultimate 2018.3和Maven开发环境，创建并运行Hadoop的WordCount程序。重点包括项目的创建流程，如创建Maven项目、配置文件、设置运行参数，以及打包和测试过程。特别提示，项目需在Jdk 1.8环境下运行，并注意解决tools.jar的依赖问题。

开发环境
操作系统：Manjora Linux
开发软件：Idea Ultimate 2018.3
Jdk开发环境：1.8（请尽量不要使用超过9以上的，如果环境不是1.8请修改pom.xml里面的toos.jar的版本）
Maven版本：maven3.3.9

文章目录

开发注意事项

项目代码

项目文件

1. 项目源代码

2. Maven配置文件

3. 执行的测试文件

4. 项目文件结构

项目创建流程

1. 创建一个Maven项目

2. 创建项目文件

3. 配置项目运行参数

4. 测试开发环境

5. 对项目进行打包

开发注意事项

尽量在Linux或MacOs操作系统上开发，Windows上有可能会出现权限问题
Jdk环境如果不是1.8的话请务必记得修改pom.xml里面tools.jar的版本号
idea只有Ultimate版本中才会自动集成这些插件，如果是社区版，操作会和本博客区别很大

项目代码

github-USCHadoop

项目文件

1. 项目源代码

WordCount.java

package cn.org.cerambycidae.Hadoop.WordCount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.StringTokenizer;

public class WordCount {
   
   

    public static class TokenizerMapper
            extends Mapper<Object, Text, Text, IntWritable> {
   
   

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context
        ) throws IOException, InterruptedException {
   
   
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
   
   
                word.set(itr.nextToken());
                context.write(word, one)

最低0.47元/天解锁文章

10 条评论

陈浩天就是我 2019.06.04
博主，你这个是本地的，如果我想使用hdfs上的文件这怎么弄?

陈浩天就是我 2019.05.13
为什么我下载的3.2版本没有core？？？
- 陈浩天就是我回复陈浩天就是我 2019.05.14
  [reply]weixin_41571247[/reply] 楼主生成了的output文件除了txt上面那三个有什么用？
- 陈浩天就是我回复陈浩天就是我 2019.05.14
  [reply]weixin_41571247[/reply] 试了一下替换不行，而且你的HADOOP_hoME变量是取这个吗？？
- 陈浩天就是我回复陈浩天就是我 2019.05.14
  [reply]weixin_41571247[/reply] 而且我有一个疑问我即下载了hadopp框架也下载了hadoopsrc这个文件
- 幼稚调皮的钟回复陈浩天就是我 2019.05.13
  [reply]weixin_41571247[/reply] 嗯，你应该是直接引入下载的Hadoop文件中的jar包吧，Hadoop在2.x版本之上就没有Hadoop-core了，因为2.x版本将功能拆分了，所以Hadoop-core在2.x版本上拆分成了Hadoop-common，Hadoop-mapreduce，Hadoop-hdfs，我这里是图省事，所以直接引入了Hadoop-core包，如果你没有用Maven管理的话，可以使用Hadoop-mapreduce-client-core.jar和hadoop-hdfs.jar (对应文件位置:$HADOOP_HOME/share/hadoop/mapreduce和$HADOOP_HOME/share/hadoop/hdfs)代替。如果你使用maven搭建的话可以将Hadoop-core替换为 [code=xml] <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-hdfs</artifactId> <version>${hadoop.version}</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-mapreduce-client-core</artifactId> <version>${hadoop.version}</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>${hadoop.version}</version> </dependency> [/code]
- 陈浩天就是我回复幼稚调皮的钟 2019.05.13
  [reply]day_to_die[/reply] 单独的但是这个包在那个位置？？？
- 陈浩天就是我回复幼稚调皮的钟 2019.05.13
  [reply]day_to_die[/reply] 楼主可以详细点吗！！！现在我只能通过手动添加jar包来运行wordcount了
- 幼稚调皮的钟回复陈浩天就是我 2019.05.13
  [reply]weixin_41571247[/reply] Maven仓库中Hadoop-core最高版本只到1.2.1，所以我pom.xml配置文件中的Hadoop-core版本是单独使用hadoop-core.version控制的