WordCount中,统计单词数量
1.创建一个MapReduce项目
2.导入相应的jar
3.新建一个包,包下直接创建Mapper类
4.创建Reduce类
5.创建一个普通类,用于提交任务,此时,项目里面有 三个线程
6.因为权限问题,这里导入了一个包,直接沾到项目src目录下,如果jar包需要请在评论区联系
7.因为项目里面的东西都是自动生成,对于一些方面我做了稍加修改,下面是我的代码,仅供参考,有错请指正,
mapper类:
package com.demo;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
/**
* mapreduce程序中map端在读取数据的时候,默认每一次读一行 long string string int
* 在mapreduce中原有的java类型是在数据传输中不能使用 ,需要使用其封装类 LongWritable
* context作用是连接map端和reduce端程序的连接点,输出的数据需要通道context写到磁盘中
*/
public class Mapper02 extends Mapper<LongWritable, Text, Text, IntWritable> {
//写一个静态常量作为输出数据默认数量为1
private final static IntWritable one = new IntWritable(1);
//一个静态变量为某个切割下来的词
private static Text word = new Text();
//一下方法为自动生成,输入类型的key,和value 连接
public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//空格隔开的字符算一个单词,并写入到String数组中
String[] st = value.toString().split(" ");
for (int i = 0; i < st.length; i++) {
//循环写入
context.write(word, one);
}
}
}
reduc类:
package com.mayong.demo01;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class Job01 {
public static void main(String[] args) throws Exception {
//设置指定键对值的系统属性,,相当于一个静态变量 ,存在内存里面!
System.setProperty("HADOOP_USER_NAME", "root");
Configuration conf = new Configuration(true);
//设置获取信息的uri
conf.set("fs.defaultFS", "hdfs://192.168.205.140:9000");
//提交的任务
Job job= Job.getInstance(conf);
//设置提交任务的属性
job.setJobName("wc2Job");
job.setJarByClass(Job01.class);
job.setMapperClass(Mapper01.class);
job.setReducerClass(Reduce01.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
//设置需要计算的输入文件路径
FileInputFormat.setInputPaths(job, new Path("/asdf/hh.txt"));
FileOutputFormat.setOutputPath(job, new Path("/asdf/"));
//提交并执行任务且返回执行结果
boolean wfc = job.waitForCompletion(true);
if(wfc){
System.out.println("执行成功");
}
}
}
job类:
package com.demo;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class Job02 {
public static void main(String[] args) throws Exception {
//设置指定键值的系统属性,相当于一个静态变量,直接存在内存里面的root
System.setProperty("HADOOP_USER_NAME", "root");
//获取连接
Configuration conf = new Configuration(true);
//设置获取信息的uri
conf.set("fs.defaultFS", "hdfs://192.168.205.140:9000");
//定义提交任务
Job job = Job.getInstance(conf);
//设置提交的属性
job.setJobName("demoJob");
job.setJarByClass(Job02.class);
job.setMapperClass(Mapper02.class);
job.setReducerClass(Reduce02.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
//设置需要计算的输入文件路径
FileInputFormat.setInputPaths(job, new Path("/ddee/nini.txt"));
FileOutputFormat.setOutputPath(job, new Path("/eedd"));
//提交并执行任务返回执行是否成功
boolean wfc = job.waitForCompletion(true);
if (wfc) {
System.out.println("执行成功");
}
}
}
以上代码仅供参考,望理解,以下是参考资料源
mapper里面对于参数类型的解释
job方法的使用
hadoop数据类型