思路:
原始数据:(原始数据可以从ncdc的气象数据获取到)
年,月,日,温度
1901,07,12,289
1901,07,13,267
1901,07,14,261
1901,07,15,278
1901,07,16,300
1901,07,17,278
1932,06,27,389
1932,06,28,400
1932,06,29,368
1932,06,30,372
1932,07,01,374
实现后的结果
1901-07,261,267,278,278,289,300
1932-06,368,372,389,400
1932-07,374
新的排序以年-月为键值,温度为值,将温度进行了排序,
方案一: 直接map读取数据,对数据进行拆分,新的key和value分配完,规约至reduce,在reduce处理中,对值进行排序
优点: 处理简单 缺点: 数据量大,内存不够用
所以在大数据量的情况下,基本不可用。
方案二: 使用MapReduce框架对归约器进行排序,依赖于hadoop框架,这样在hadoop框架下,内存不在是瓶颈,不会发生
内存溢出。
设计思路: 1 构造中间键,组合键起到即可做键值,又能排序的作用。

本文介绍了一种使用MapReduce框架对气象数据进行高效排序的方法,解决了大数据量下的内存瓶颈问题,通过构造组合键和定制分区器实现数据的排序与分区。
最低0.47元/天 解锁文章
727

被折叠的 条评论
为什么被折叠?



