TOP K问题

最新推荐文章于 2025-01-02 20:11:55 发布

转载最新推荐文章于 2025-01-02 20:11:55 发布 · 157 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/u/2286010/blog/3082043

TOP K

通用思路：

1、使用Hash取模的方法将大文件划分成若干小文件；

2、使用HashMap或者字典树（trie树）对小文件进行词频统计；

3、对小文件按照词频进行排序（堆排序等），取每个小文件的前N个；

4、将小文件的结果归并排序，再对归并后的文件取前N个。

有1亿个浮点数，如果找出期中最大的10000个？

对于第三部，首先读入前10000个数来创建大小为10000的最小堆，建堆的时间复杂度为O（mlogm）（m为数组的大小即为10000），然后遍历后续的数字，并于堆顶（最小）数字进行比较。如果比最小的数小，则继续读取后续数字；如果比堆顶数字大，则替换堆顶元素并重新调整堆为最小堆。整个过程直至1亿个数全部遍历完为止。然后按照中序遍历的方式输出当前堆中的所有10000个数字。

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每个文件大概是200k左右。
如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。

===============================================================