每一行为一个日期及一个人名字,分为3个文件,其中存在多行重复数据,需要进行去重。
输入文件:
file1:
2006-6-9 a
2006-6-11 b
2006-6-21 c
2006-6-10 a
2006-6-11 b
2006-6-30 e
2006-6-9 a
2006-6-26 d
file2:
2006-6-9 a
2006-6-11 b
2006-6-9 a
2006-6-21 c
2006-6-11 b
2006-6-9 a
2006-6-30 e
file3:
2006-6-9 a
2006-6-11 b
2006-6-9 a
2006-6-21 c
2006-6-11 b
2006-6-26 d
期望输出:
2006-6-9 a
2006-6-10 a
2006-6-11 b
2006-6-21 c
2006-6-26 d
2006-6-30 e
编写代码:
package zmy.examples;
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs