海量数据最大k个数以及重复次数最多的k个数问题

本文探讨了在海量数据处理中寻找最大k个数及重复次数最多的k个数的算法策略。介绍了在不同内存限制下,如何运用小根堆、HashMap及哈希分治法(MapReduce)解决TopK问题,特别适用于大数据处理场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

海量数据最大k个数以及重复次数最多的k个数问题

一、没有内存限制(内存可存储所有海量数据)

  海量数据最大k个数:典型TopK问题,维护一个k个元素的小根堆,遍历所有海量数据,与小根堆堆顶元素进行比较,大于堆顶元素(小根堆最小元素)时,当前元素作为新的堆顶元素,并调整小根堆,最终遍历完成后的小根堆即为TopK大的数。
  海量数据重复次数最多的k个数:使用HashMap,遍历所有海量数据,key为数字,value为数字出现的次数,最终在HashMap中找到出现次数最多的K个元素即可(value集合的TopK)

二、有内存限制(哈希分治法——MapReduce)

  由于数据太多(保存在一个超级大的文件中)不可能一次加载进内存进行操作,必须进行拆分,利用哈希分治的思想,将规模大的问题化小,然后解决各个小的问题,最终得到结果。
  哈希分治的基本操作:
   ①Map:设计一个简单的哈希函数hash(x)=x%m,再去设置m个子文件,遍历海量数据,对所有的数都进行哈希函数的运算,实现将海量数据的超大文件分解为m个子文件的任务。(具体hash函数与子文件个数的设置需要根据具体情况来设置,m=海量数据个数/内存限制大小/k
   ②Reduce:对每个子文件均使用HashMap或二叉树保存数字(key)及其出现次数(value)的信息,每个子文件都找出前k个数,最终需要对km个数进行排序即可。
  海量数据最大k个数:每个子文件都找出最大的k个数,并对最终的k
m个数进行排序即可(快排,堆排均可,或构建结点个数为k的小根堆,以数字大小为标准即可)
  海量数据重复次数最多的k个数:每个子文件都找出重复次数最多的k个结点,再次构建新的节点数为k*m的TreeMap,找到其出现次数最多的k个数即可。(或构建结点个数为k的小根堆,以次数为标准即可)


 参考文献:哈希分治法 - 统计海量数据中出现次数最多的前10个IP

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值