0. 运行环境
- idea+hadoop 2.9.0 本地调试
- 关于idea上hadoop的配置,见前文
https://blog.youkuaiyun.com/wxfghy/article/details/80521577
- 输入文件格式如下,输出以字母分区,分区内部排序,也可以不分区,按ABC排序
刘备 15
关羽 60
张飞 8
刘备 75
关羽 65
张飞 98
刘备 55
刘备 23
关羽 85
张飞 67
张飞 58
- 输出文件按姓名分3个文件保存,格式为人名 分数升序
刘备 15
刘备 23
刘备 55
刘备 75
1. 主方法
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration cfg=new Configuration()
Job job = Job.getInstance(cfg)
//SecondSort为主方法所在类
job.setJarByClass(SecondSort.class)
job.setOutputKeyClass(Text.class)
job.setOutputValueClass(Text.class)
job.setMapOutputKeyClass(SeKey.class)
job.setMapOutputValueClass(IntWritable.class)
job.setMapperClass(SeMaper.class)
job.setReducerClass(SeReduceer.class)
//设置reduce数量为3,默认为1
job.setNumReduceTasks(3)
//设置自定义分区类Partitioner
job.setPartitionerClass