- 计算1949-1955年,每年温度最高的时间
- 思路分析
①Mapper,按照年份升序排序,同时每年的温度降序
②Reduce,按照年份分组, 每年对应一个reduce任务
- Hadoop中如何自定义排序,自定义分区,自定义分组。
- --需求:
- 1.计算在1949-1955年,每年温度最高的时间
- 2.计算在1949-1955年,每年温度最高前十天
- --思路:
- 1.按照年份升序,同时每一年中温度降序排序
- 2.按照年份分组,每一年对应一个reduce任务
- mapper输出,key为封装对象。
- --目的:
- 自定义排序
- 自定义分区
- 自定义分组

该博客介绍了如何使用Hadoop进行自定义排序、分区和分组,以计算1949-1955年每年的最高温度。在Mapper阶段,按照年份升序和当年温度降序进行排序;在Reduce阶段,按照年份分组,每个年份对应一个Reduce任务。通过这个过程,博主展示了处理历史气候数据的一种方法。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



