Hadoop作业配置详解-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_39469127/article/details/89461085

一、作业文件输入分片读入格式设置

import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;

//1.设置文件输入分片格式：KeyValueTextInputFormat.class
//此种读入方式存在两种情况：（纯文本）
//1.1.若制表符'\t'存在，则将文件默认按每一行的第一个制表符分割为key/value对；
//1.2.若制表符'\t'不存在，则将整行作为key，value置为null。
job.setInputFormatClass(KeyValueTextInputFormat.class);

//2.设置文件输入分片格式：TextInputFormat.class
//此种读入方式就一种情况：（纯文本）
//2.1.将每行行号作为key，整行内容作为value。
job.setInputFormatClass(TextInputFormat.class);

二、作业输出文件格式设置

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

//作业输出格式设置为：纯文本
job.setOutputFormatClass(TextOutputFormat.class);

三、Map任务/Reduce任务输出键值对类型设置

//设置map输出key/value格式
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);

//设置reduce输出（作业输出）key/value格式
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);