大数据小内存TOPK,排序问题。

博客围绕大数据小内存TOPK和排序问题展开。对于10亿个int数字排序或求TOP100,可采用堆排序,如小顶堆或大顶堆,也可用bit数组。在大数据去重方面,针对M个int整数去重问题,可使用bitmap将4字节int值映射为1字节byte。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据小内存TOPK,排序问题。

问题

10亿个int数字,从小到大排序,或者得到TOP100,等问题。

解答

可以使用堆排序解决,小顶堆或者大顶堆。
从小到大排序,使用小顶堆,将所有数字按内存大小分段,内部排好序,从每一段中取出最小的数字,建立小顶堆,每次把堆定输出到磁盘保存,再从堆定所在的段中取数字,重新建立小顶堆,最终完成排序。
对于排序问题,TOP100,维持一个有100个节点的小顶堆,每次读入一个新数字,与堆定比较,如果比堆顶大,则抛弃堆定元素,重新建立大顶堆。

对于排序问题,可以用一个2^32的bit数组,每读一个数,对应的位置上设置为1,最后从小到大遍历数组。

大数据去重

问题提出:

M(如10亿)个int整数,只有其中N个数重复出现过,读取到内存中并将重复的整数删除。

解答

可以使用bitmap,将4字节的int值映射为1字节的byte.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值