海量数据最大k个数以及重复次数最多的k个数问题

本文探讨了在海量数据处理中寻找最大k个数及重复次数最多的k个数的算法策略。介绍了在不同内存限制下，如何运用小根堆、HashMap及哈希分治法（MapReduce）解决TopK问题，特别适用于大数据处理场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

海量数据最大k个数以及重复次数最多的k个数问题

一、没有内存限制（内存可存储所有海量数据）

海量数据最大k个数：典型TopK问题，维护一个k个元素的小根堆，遍历所有海量数据，与小根堆堆顶元素进行比较，大于堆顶元素（小根堆最小元素）时，当前元素作为新的堆顶元素，并调整小根堆，最终遍历完成后的小根堆即为TopK大的数。
海量数据重复次数最多的k个数：使用HashMap，遍历所有海量数据，key为数字，value为数字出现的次数，最终在HashMap中找到出现次数最多的K个元素即可（value集合的TopK）

二、有内存限制（哈希分治法——MapReduce）

由于数据太多（保存在一个超级大的文件中）不可能一次加载进内存进行操作，必须进行拆分，利用哈希分治的思想，将规模大的问题化小，然后解决各个小的问题，最终得到结果。
哈希分治的基本操作：
①Map：设计一个简单的哈希函数hash(x)=x%m，再去设置m个子文件，遍历海量数据，对所有的数都进行哈希函数的运算，实现将海量数据的超大文件分解为m个子文件的任务。（具体hash函数与子文件个数的设置需要根据具体情况来设置，m=海量数据个数/内存限制大小/k）
②Reduce：对每个子文件均使用HashMap或二叉树保存数字（key）及其出现次数（value）的信息，每个子文件都找出前k个数，最终需要对km个数进行排序即可。
海量数据最大k个数：每个子文件都找出最大的k个数，并对最终的km个数进行排序即可（快排，堆排均可，或构建结点个数为k的小根堆，以数字大小为标准即可）
海量数据重复次数最多的k个数：每个子文件都找出重复次数最多的k个结点，再次构建新的节点数为k*m的TreeMap，找到其出现次数最多的k个数即可。（或构建结点个数为k的小根堆，以次数为标准即可）

参考文献：哈希分治法 - 统计海量数据中出现次数最多的前10个IP