这道题目 的思路就是 :
先把大的文件分成小的文件,然后在逐个的在小文件中统计,这样就避免了一次性把所有的记录加载进来
承受不了!然后再对结果排序。
但是,这里有一个问题,怎么把大的文件分成小文件了?
看网友们的博客的时候,大家都说,对IP地址hash 然后再取模 == Hash(IP) % 1000;
然后,所有相同的IP地址就会映射到一个文件了,当时,脑袋就没转过弯来了,就在纳闷了,
难道,就只有1000个IP地址!!!
可是,他有没有说,小文件中IP地址 都是相同的....... 不同的IP地址取模相同的话,也会放在一个文件中的
本文讨论了如何将大型文件通过哈希分组的方法拆分成若干个小文件,并探讨了这种做法背后的逻辑。文中提到使用哈希取模的方式进行文件划分,但同时也提出了疑问,即不同的IP地址经过哈希取模后可能会被分到同一个文件中。
1299

被折叠的 条评论
为什么被折叠?



