MapReduce之wordcount

最新推荐文章于 2024-01-11 16:12:06 发布

原创最新推荐文章于 2024-01-11 16:12:06 发布 · 483 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#mapreduce #hadoop #jar #class #wordcount

Big Data 专栏收录该内容

140 篇文章

订阅专栏

本文介绍了使用Hadoop MapReduce实现WordCount的具体步骤，包括Mapper和Reducer的编写，以及如何运行作业。

Step 1：
导入Hadoop中MapReduce的所有jar包

Step 2:WordCount 的Mapper

public class WCMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

    IntWritable v = new IntWritable(1);

    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {

        String tmp = value.toString();
        String[] arr = tmp.split(" ");
        for(String s : arr){
            if(!"".equals(s)){
                Text k = new Text(s);
                context.write(k, v);
            }
        }
    }
}

Step 3：WordCount的Reducer

public class WCReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context)
            throws IOException, InterruptedException {

        int sum = 0;
        for(IntWritable value : values){
            sum += value.get();
        }
        context.write(key, new IntWritable(sum));
    }
}

Step 4：WordCount的Main—RunJob

public class RunJob {

    public static void main(String[] args) {
        try {
            Configuration conf = new Configuration();
            FileSystem fs = FileSystem.newInstance(conf);

            Job job = Job.getInstance();
            job.setJarByClass(RunJob.class);

            job.setJobName("wordcount");
//          job.setInputFormatClass(KeyValueTextInputFormat.class);

            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(IntWritable.class);      

            job.setMapperClass(WCMapper.class);
            job.setReducerClass(WCReducer.class);
            job.setCombinerClass(WCReducer.class);

            job.setNumReduceTasks(3);
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(IntWritable.class);

//          job.setCombinerClass(cls);

            FileInputFormat.addInputPath(job, new Path("/data/"));
            Path output = new Path("/wc");
            if(fs.exists(output)){
                fs.delete(output, true);
            }
            FileOutputFormat.setOutputPath(job, output);

            boolean flag = job.waitForCompletion(true);
            if(flag){
                System.out.println("Job finished !");
            }

        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}