【编程练习题】从一百亿条地址数据中获取数量最多的Top10【热搜】-- MapReduce

面对100亿个IP地址,由于数据量巨大无法一次性加载内存。本文采用哈希分治法,通过MapReduce将大文件拆分为10000份,每份10MB,使用内存统计每个小文件的高频IP。Reduce阶段,多个worker找出各自的最大前10个IP,master再从所有结果中确定全局的Top10。该方法展示了MapReduce在处理海量数据时的优势。

场景

哈希分治法 
这是一个 ip 地址 127.0.0.1 
假设有100亿个这样的 ip 地址存在文件中 
这个文件大小大约是 100GB 
问题:要统计出100亿个 ip 中,重复出现次数最多的前10个

分析

100GB 几乎不可能一次加载进内存进行操作,所以必须要拆分 
那么可以利用分治的思想,把规模大的问题化小,然后解决各个小的问题,最后得出结果。

实现思路

  • ipv4 地址是一个 32 位的整数,可以用 uint 保存。
  • 我先设计一个哈希函数,把100个G的文件分成10000份,每份大约是 10MB,可以加载进内存了
例如:我设计一个简单的哈希函数是 f(ip) = ip % 10000,(ip 是个32位整数)
那么 5 % 10000 = 5,不管 5 在哪个地方 5 % 10000 的结果都是 5,这就保证了相同的 ip 会被放在同一个子文件中,
方便统计,相同的元素经过同一个哈希函数,得出的哈希值是一样的。
那么我把100亿个 ip,都进行 ip % 10000 的操作,就完成了 100GB 文件分解成 10000个子文件的任务了。
当然实际中哈希函数的选取很重要,尽量使得元素分布均匀,哈希冲突少的函数才是最好的。

记住,我把上面这个分解的过程叫做 Map,由一台叫 master 的计算机完成这个工作。

10MB 的小文件加进内存,统计出出现次数最多的那个ip

10MB 的小文件里面存着很多 ip,他们虽然是乱序的,但是相同的 ip 会映射到同一个文件中来!
那么可以用二叉树统计出现次数,二叉树节点保存(ip, count)的信息,把所有 ip 插入到二叉树中,如果这个 ip 不存在,
那么新建一个节点, count 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值