面试题 | 使用HashMap实现大数据日志处理

最新推荐文章于 2024-11-02 10:10:56 发布

颜群

最新推荐文章于 2024-11-02 10:10:56 发布

阅读量415

点赞数

分类专栏： JAVA

本文链接：https://blog.youkuaiyun.com/yanqun007/article/details/103652399

版权

JAVA 专栏收录该内容

45 篇文章

订阅专栏

每个网站都有一个专门记录访问数据的日志文件，记录着各个用户访问时的IP、时间等信息，类似以下格式。

IP                        Date     
192.168.1.1            2019.10.12
172.17.63.162          2019.02.13
10.11.123.21           2018.11.02
...

题目：请使用HashMap找出访问该网站次数最多的那个IP地址。

分析：目前的IP地址有两种IPv4和IPv6，其中IPv4是32位，IPv6是128位。本次以IPv4进行分析。

刚提到IPv4是32位的，每一位的大小是2，因此如果把全部的IPv4存储在一起，总大小就是2^32=4G。如果把4G的IP地址全部放入HashMap中计算，显然是不可取的，因此需要采用分而治之的思想（类似于MapReduce）。

至于将4G拆分成多大的数据，这个可以根据后期的压力测试结果、或者根据硬件的内存情况而定。本次是假设将4GB拆分4MB的小文件，因此大致的思想就是将4G划分成1024份（4G÷4M=1024），然后在每个小文件中记录4MB的IP地址，最后将这些1024个4BM的小文件放到内存中使用HashMap进行计算。

每个小文件的计算方法是一样的：使用HashMap计算，其中key=IP,value=该IP的出现次数。并且使用某个排序算法，计算出当前这个小文件中出现次数最多的IP。

将1024个文件都进行上述计算后，就能得到1024个IP（即每个小文件中次数出现最多的IP），然后再进行一次排序就能得到全部文件中出现次数最多的那个IP。

提示：将4G拆分成1024份时，可以使用 IP地址的Hash值%1024。

如果能使用MapReduce、Spark、Fork/Join，本题就不用这么费劲了。

- 完 -

一道三目运算符 | 正确率不足20%

Java小白到大神的心路历程（Java SE）

Java小白到大神的心路历程（Web前端）
答疑 | 面试全对，却没offer？

"hello"+null = ?

读者交流 | JAVA过时了吗？

自己写的java.lang.String能用吗？

答疑 | synchronized有指令重排序的功能吗？