B05 - 044、Mapreduce的分区 - Partitioner

最新推荐文章于 2020-04-13 14:32:40 发布

会飞还得了

最新推荐文章于 2020-04-13 14:32:40 发布

阅读量217

点赞数

CC 4.0 BY-SA版权

分类专栏： B02、BigData 文章标签： Mapreduce的分区 - Partitioner Mapreduce的分区

本文链接：https://blog.youkuaiyun.com/weixin_42464054/article/details/92768337

B02、BigData 专栏收录该内容

271 篇文章

订阅专栏

本文围绕Mapreduce的分区Partitioner展开，阐述其需求是将流量汇总统计结果按手机归属地省份输出到不同文件。分析了Mapreduce默认分发规则，若要自定义分组需改写数据分发，可通过自定义CustomPartitioner继承Partitioner类并在job对象中设置来实现。

初学耗时：1h

注：优快云手机端暂不支持章节内链跳转，但外链可用，更好体验还请上电脑端。

一、Mapreduce的分区 - Partitioner
1.1 需求。
1.2 分析。
1.3 实现。

记忆词：

Mapreduce的分区 - Partitioner

B05 - 999、大数据组件学习② - Hadoop

ギ舒适区ゾ || ♂ 累觉无爱 ♀

一、Mapreduce的分区 - Partitioner

1.1 ~ 需求。

将流量汇总统计结果按照手机归属地不同省份输出到不同文件中。

1.2 ~ 分析。

Mapreduce 中会将 map 输出的 kv 对，按照相同 key 分组，然后分发给不同的 reducetask。
默认的分发规则为：根据 key 的 hashcode%reducetask 数来分发。
所以：如果要按照我们自己的需求进行分组，则需要改写数据分发（分组）。
组件 Partitioner，自定义一个 CustomPartitioner 继承抽象类：Partitioner，然后在
job 对象中，设置自定义 partitioner：job.setPartitionerClass(CustomPartitioner.class。

1.3 ~ 实现。

public class ProvincePartitioner extends Partitioner<Text, FlowBean> 
public static HashMap<String, Integer> provinceMap = new HashMap<String, Integer>();

static{
	provinceMap.put("134", 0);
	provinceMap.put("135", 1);
	provinceMap.put("136", 2);
	provinceMap.put("137", 3);
	provinceMap.put("138", 4);
}

@Override
public int getPartition(Text key, FlowBean value, int numPartitions) {
	Integer code = provinceMap.get(key.toString().substring(0, 3));
	
	if (code != null) {
		return code;
		}else{
		return 5;
	}
}

public class FlowSumProvince {
	public static class FlowSumProvinceMapper extends Mapper<LongWritable, Text, Text, FlowBean>{
		Text k = new Text();
		FlowBean v = new FlowBean();
	}
	
	@Override
	protected void map(LongWritable key, Text value,Context context)
	throws IOException, InterruptedException {
		//拿取一行文本转为 String
		String line = value.toString();
		//按照分隔符\t 进行分割
		String[] fileds = line.split("\t");
		//获取用户手机号
		String phoneNum = fileds[1];
		
		long upFlow = Long.parseLong(fileds[fileds.length-3]);
		long downFlow = Long.parseLong(fileds[fileds.length-2]);
		
		k.set(phoneNum);
		v.set(upFlow, downFlow);
		
		context.write(k,v);
	}
}

---
public static class FlowSumProvinceReducer extends Reducer<Text, FlowBean, Text, 
FlowBean>{
	
	FlowBean v = new FlowBean(); 
	
	@Override
	protected void reduce(Text key, Iterable<FlowBean> flowBeans,Context context) 
	throws IOException, InterruptedException {
	
		long upFlowCount = 0;
		long downFlowCount = 0;
		
		for (FlowBean flowBean : flowBeans) {
		
		upFlowCount += flowBean.getUpFlow();
		
		downFlowCount += flowBean.getDownFlow();
	
		}
	
		v.set(upFlowCount, downFlowCount);
		
		context.write(key, v);
	}


	public static void main(String[] args) throws Exception{

		Configuration conf = new Configuration();
		conf.set("mapreduce.framework.name", "local");
		Job job = Job.getInstance(conf);
		//指定我这个 job 所在的 jar 包位置
		job.setJarByClass(FlowSumProvince.class);
		
		//指定我们使用的 Mapper 是那个类 reducer 是哪个类
		job.setMapperClass(FlowSumProvinceMapper.class);
		job.setReducerClass(FlowSumProvinceReducer.class);
		// job.setCombinerClass(FlowSumProvinceReducer.class);
		
		// 设置我们的业务逻辑 Mapper 类的输出 key 和 value 的数据类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(FlowBean.class);
		
		// 设置我们的业务逻辑 Reducer 类的输出 key 和 value 的数据类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(FlowBean.class);
		
		
		//这里设置运行 reduceTask 的个数
		//getPartition 返回的分区个数 = NumReduceTasks 正常执行
		//getPartition 返回的分区个数 > NumReduceTasks 报错：Illegal partition
		//getPartition 返回的分区个数 < NumReduceTasks 可以执行 ，多出空白文件
		job.setNumReduceTasks(10);
		
		
		//这里指定使用我们自定义的分区组件
		job.setPartitionerClass(ProvincePartitioner.class);
		
		
		FileInputFormat.setInputPaths(job, new Path("D:\\flowsum\\input"));
		// 指定处理完成之后的结果所保存的位置
		FileOutputFormat.setOutputPath(job, new Path("D:\\flowsum\\outputProvince"));
		
		boolean res = job.waitForCompletion(true);
		System.exit(res ? 0 : 1);
	
	}
}