中位数

面对5亿个整数,无法一次性加载内存进行排序以找到中位数。采用分桶策略,确定中位数所在桶,然后从该桶中获取中位数。在链表构建和维护过程中,保持中间位置的指针,根据新数据与链尾和中间位置的关系调整,减少查找次数。无需完全排序,只需找到中位数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

假如有5亿个int,寻找它们的中位数。

基本分析参见http://blog.youkuaiyun.com/liuyuan185442111/article/details/48396413

因为数字有5亿个,不可能一次性全部载入内存进行排序,所以,采用分桶策略,桶大小视具体情况而定。

基本思路:1 分桶;2 确定中位数所在的桶 T ;3 从T中取得中位数

分两种情况:重复数字不计算在内和重复数字计算在内。

重复数字不计算在内:
分桶,用一个BIT位代表 一个数字,
1 内存中定义一个整数数组A,假设整数32位,最大整数为M,则数组大小为M/32,数组中每一个bit位代表一个整数,则T/32=i,T%32=j,将A[i]的第j位置为1,如此将5亿个数映射到整数数组A中.
2 定义一个数组B,大小与A相同,B[0]=A[0]中1的个数,B[1]=A[1]中1的个数+B[0],B[2]=A[2]中1的个数+B[1],B[i]=A[i]中1的个数+B[i-1],则A[M/32]值就为总的数据个数,从而就可知道中位数的序号
3 从B数组中求得中位数在A数组的下标,从A数组中得到中位数的值。

不重复数字计算在内:
分桶,桶内数据链式直接插入排序
1 分桶 2^16
2 得到中位数所在的桶T
3 链表实现直接插入排序,链表长度等于中位数所在位置N,遍历T,得到中位数。
  • 因为只需要得到中位数,不需要对排序完成的进行读取操作,所以不需要得到桶内所有数据的排序结果。
  • 为了解决每次插入数据都要从链表头进行查找,可以在N长链表的构建及后期维护过程中,维持一个当前链表中间位置的变量,每次从桶内读取到一个新的数据A时,首先判断当前链表为N,如果A比链尾元素值大,则从桶中取下个数值,如果A小于链尾元素的值,则将A与中间位置元素的值进行比较。
  • 比较N与桶内数据问题S/2的大小,如果N大,则链表取桶内数据最大的S-N个数,否则取桶内数据最小的N个数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值