面试题 | 使用HashMap实现大数据日志处理

每个网站都有一个专门记录访问数据的日志文件,记录着各个用户访问时的IP、时间等信息,类似以下格式。

IP                        Date     
192.168.1.1            2019.10.12
172.17.63.162          2019.02.13
10.11.123.21           2018.11.02
...

 

题目:请使用HashMap找出访问该网站次数最多的那个IP地址。

分析:目前的IP地址有两种IPv4和IPv6,其中IPv4是32位,IPv6是128位。本次以IPv4进行分析。

刚提到IPv4是32位的,每一位的大小是2,因此如果把全部的IPv4存储在一起,总大小就是2^32=4G。如果把4G的IP地址全部放入HashMap中计算,显然是不可取的,因此需要采用分而治之的思想(类似于MapReduce)。

 

至于将4G拆分成多大的数据,这个可以根据后期的压力测试结果、或者根据硬件的内存情况而定。本次是假设将4GB拆分4MB的小文件,因此大致的思想就是将4G划分成1024份(4G÷4M=1024),然后在每个小文件中记录4MB的IP地址,最后将这些1024个4BM的小文件放到内存中使用HashMap进行计算。

每个小文件的计算方法是一样的:使用HashMap计算,其中key=IP,value=该IP的出现次数。并且使用某个排序算法,计算出当前这个小文件中出现次数最多的IP。

 

将1024个文件都进行上述计算后,就能得到1024个IP(即每个小文件中次数出现最多的IP),然后再进行一次排序就能得到全部文件中出现次数最多的那个IP。

 

提示:将4G拆分成1024份时,可以使用 IP地址的Hash值%1024。

 

如果能使用MapReduce、Spark、Fork/Join,本题就不用这么费劲了。

 

- 完 -

 

一道三目运算符 | 正确率不足20%

Java小白到大神的心路历程(Java SE)

Java小白到大神的心路历程(Web前端)
答疑 | 面试全对,却没offer?

"hello"+null = ?

读者交流 | JAVA过时了吗?

自己写的java.lang.String能用吗?

答疑 | synchronized有指令重排序的功能吗?

服了,list.add()也会报错!!!

一道JVM面试题,答错率超90%

10行代码2道题,全答对的你月薪多少了?

自己写的java.lang.String能用吗?

答疑 | 减少延迟、缓冲区、static

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值