每个网站都有一个专门记录访问数据的日志文件,记录着各个用户访问时的IP、时间等信息,类似以下格式。
IP Date 192.168.1.1 2019.10.12 172.17.63.162 2019.02.13 10.11.123.21 2018.11.02
...
题目:请使用HashMap找出访问该网站次数最多的那个IP地址。
分析:目前的IP地址有两种IPv4和IPv6,其中IPv4是32位,IPv6是128位。本次以IPv4进行分析。
刚提到IPv4是32位的,每一位的大小是2,因此如果把全部的IPv4存储在一起,总大小就是2^32=4G。如果把4G的IP地址全部放入HashMap中计算,显然是不可取的,因此需要采用分而治之的思想(类似于MapReduce)。
至于将4G拆分成多大的数据,这个可以根据后期的压力测试结果、或者根据硬件的内存情况而定。本次是假设将4GB拆分4MB的小文件,因此大致的思想就是将4G划分成1024份(4G÷4M=1024),然后在每个小文件中记录4MB的IP地址,最后将这些1024个4BM的小文件放到内存中使用HashMap进行计算。
每个小文件的计算方法是一样的:使用HashMap计算,其中key=IP,value=该IP的出现次数。并且使用某个排序算法,计算出当前这个小文件中出现次数最多的IP。
将1024个文件都进行上述计算后,就能得到1024个IP(即每个小文件中次数出现最多的IP),然后再进行一次排序就能得到全部文件中出现次数最多的那个IP。
提示:将4G拆分成1024份时,可以使用 IP地址的Hash值%1024。
如果能使用MapReduce、Spark、Fork/Join,本题就不用这么费劲了。
- 完 -