MapReduce简单实例2——开发MR应用程序来统计清洗数据并去重。
对文件中的数据按要求进行清洗并去重输出,文件内容如下:
具体要求如下:
1.清洗要求:字段间使用一个空格分隔;若某行字段总数不等于2,那么抛弃该行数据
2.去重:对清洗后的数据进行去重
1.1. 启动Hadoop后上传数据文件并查看
start-all.sh
hdfs dfs -put /home/hadoop01/test/mr_score /input
hdfs dfs -ls /input/mr_score
1.2. 导入所需要的包
package mr.demo;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import