一个Job里可以从多个同质或异质的输入源读取数据,并使用各自的Mapper
MultiOutputFormat可以让你按一定规则指定、分隔reduce output的文件名,如
- MultipleInputs.addInputPath(conf, ncdcInputPath,
- TextInputFormat.class, MaxTemperatureMapper.class)
- MultipleInputs.addInputPath(conf, metOfficeInputPath,
- TextInputFormat.class, MetOfficeMaxTemperatureMapper.class);
MultiOutputFormat可以让你按一定规则指定、分隔reduce output的文件名,如
- ...
- static class StationNameMultipleTextOutputFormat
- extends MultipleTextOutputFormat<NullWritable, Text> {
- private NcdcRecordParser parser = new NcdcRecordParser();
- protected String generateFileNameForKeyValue(NullWritable key, Text value,
- String name) {
- parser.parse(value);
- return parser.getStationId();
- }
- }
- ...
本文介绍如何在MapReduce作业中实现从多个不同类型的输入源读取数据,并使用特定的Mapper进行处理。同时,展示了如何通过MultiOutputFormat自定义类来根据业务需求分隔输出文件。

8690

被折叠的 条评论
为什么被折叠?



