大数据下利用二次排序的算法实现气象数据的排序

本文介绍了一种使用MapReduce框架对气象数据进行高效排序的方法,解决了大数据量下的内存瓶颈问题,通过构造组合键和定制分区器实现数据的排序与分区。

思路: 

原始数据:(原始数据可以从ncdc的气象数据获取到)

年,月,日,温度 

1901,07,12,289
1901,07,13,267
1901,07,14,261
1901,07,15,278
1901,07,16,300
1901,07,17,278

1932,06,27,389
1932,06,28,400
1932,06,29,368
1932,06,30,372
1932,07,01,374

实现后的结果

1901-07,261,267,278,278,289,300

1932-06,368,372,389,400

1932-07,374

新的排序以年-月为键值,温度为值,将温度进行了排序,

方案一: 直接map读取数据,对数据进行拆分,新的key和value分配完,规约至reduce,在reduce处理中,对值进行排序

                优点: 处理简单          缺点: 数据量大,内存不够用

                所以在大数据量的情况下,基本不可用。

方案二: 使用MapReduce框架对归约器进行排序,依赖于hadoop框架,这样在hadoop框架下,内存不在是瓶颈,不会发生

                内存溢出。

                设计思路: 1 构造中间键,组合键起到即可做键值,又能排序的作用。

           

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值