我的第一个WordCount项目

本文介绍了如何创建并实现一个MapReduce项目进行WordCount操作,包括创建项目、导入Hadoop相关jar包、编写Mapper和Reduce类,以及提交任务的步骤。提供了一段代码示例,并提到了可能遇到的权限问题和参考资料。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.创建一个MapReduce项目

在这里插入图片描述

2.导入相应的jar

在这里插入图片描述
在这里插入图片描述

3.新建一个包,包下直接创建Mapper类

在这里插入图片描述

4.创建Reduce类

在这里插入图片描述

5.创建一个普通类,用于提交任务,此时,项目里面有 三个线程

在这里插入图片描述

6.因为权限问题,这里导入了一个包,直接沾到项目src目录下,如果jar包需要请在评论区联系

在这里插入图片描述

7.因为项目里面的东西都是自动生成,对于一些方面我做了稍加修改,下面是我的代码,仅供参考,有错请指正,

mapper类:

package com.demo;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/** 
 * mapreduce程序中map端在读取数据的时候,默认每一次读一行  long string string int
 * 在mapreduce中原有的java类型是在数据传输中不能使用 ,需要使用其封装类  LongWritable 
 * context作用是连接map端和reduce端程序的连接点,输出的数据需要通道context写到磁盘中
*/
public class Mapper02 extends Mapper<LongWritable, Text, Text, IntWritable> {
	//写一个静态常量作为输出数据默认数量为1
	private final static IntWritable one = new IntWritable(1);
	//一个静态变量为某个切割下来的词
	private static Text word = new Text();
	//一下方法为自动生成,输入类型的key,和value 连接
	public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
		//空格隔开的字符算一个单词,并写入到String数组中
		String[] st = value.toString().split(" ");
		for (int i = 0; i < st.length; i++) {
			//循环写入
			context.write(word, one);
		}
	}

}

reduc类:

package com.mayong.demo01;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Job01 {
	public static void main(String[] args) throws Exception {
		//设置指定键对值的系统属性,,相当于一个静态变量  ,存在内存里面!
		System.setProperty("HADOOP_USER_NAME", "root");
		Configuration conf = new Configuration(true);
		//设置获取信息的uri
		conf.set("fs.defaultFS", "hdfs://192.168.205.140:9000");
		//提交的任务
		Job job= Job.getInstance(conf);
		//设置提交任务的属性
		job.setJobName("wc2Job");
		job.setJarByClass(Job01.class);
		job.setMapperClass(Mapper01.class);
		job.setReducerClass(Reduce01.class);
		
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		
		//设置需要计算的输入文件路径
		FileInputFormat.setInputPaths(job, new Path("/asdf/hh.txt"));
		FileOutputFormat.setOutputPath(job, new Path("/asdf/"));
		//提交并执行任务且返回执行结果
		boolean wfc = job.waitForCompletion(true);
		if(wfc){
			System.out.println("执行成功");
		}
	}
}

job类:

package com.demo;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Job02 {
	public static void main(String[] args) throws Exception {
		//设置指定键值的系统属性,相当于一个静态变量,直接存在内存里面的root
		System.setProperty("HADOOP_USER_NAME", "root");
		//获取连接
		Configuration conf = new Configuration(true);
		//设置获取信息的uri
		conf.set("fs.defaultFS", "hdfs://192.168.205.140:9000");
		//定义提交任务
		Job job = Job.getInstance(conf);
		
		//设置提交的属性
		job.setJobName("demoJob");
		job.setJarByClass(Job02.class);
		job.setMapperClass(Mapper02.class);
		job.setReducerClass(Reduce02.class);
		
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		
		//设置需要计算的输入文件路径
		FileInputFormat.setInputPaths(job, new Path("/ddee/nini.txt"));
		FileOutputFormat.setOutputPath(job, new Path("/eedd"));
		
		//提交并执行任务返回执行是否成功
		boolean wfc = job.waitForCompletion(true);
		if (wfc) {
			System.out.println("执行成功");
		}
	}
}

以上代码仅供参考,望理解,以下是参考资料源
mapper里面对于参数类型的解释
job方法的使用
hadoop数据类型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值