编程珠玑 | 如何给磁盘文件排序

原创于 2018-12-18 08:34:43 发布 · 538 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

算法专栏收录该内容

14 篇文章

订阅专栏

本文探讨了在有限内存条件下，对大量数据进行排序的有效策略，包括归并排序、位图算法及海量日志数据处理方法。通过实例解析，如IP访问统计、用户查询频度排序及在线人数统计，展示了不同场景下的最优实践。

第一章

输入：文件最多包含10,000,000 条记录，无重复记录，每条记录是一个7位电话号码(2773889)

输出：升序排列的输入蒸熟的列表

约束：最多1MB的内存空间可用，充足的磁盘存储空间；运行时间最多几分钟，最好10s内；

方法

1. 归并排序：输入文件读取一次，读写中间帮助文件多次

2. 多次遍历排序，根据整数特点排序，每个号码可以用32bit的整数表示，1MB内存可以读取250 000整数。

第一次：0～249 999区间的整数

第二次：250 000 ～ 499 999区间的整数 ...

3. bitmap：用一个1000万个位的字符串表示这个文件，文件读取一次，不使用中间帮助文件

a. for i = [1,n) bit[i] = 0

b. for each i in the input file: bit[i] = 1

c. for i = [0,n): if bit[i] == 1 {write i on the output file}

位图：利用该排序问题的一些特点：

1）数字集合范围受限(7位) <1000 0000

2）数字不会重复，只需记录有没有

3）只有单一整数，无其他关联信息

附录：如下是类似的海量数据问题

1、海量日志数据，提取出某日访问次数最多的那个IP。

如果日志文件足够大到计算机无法存储的情况下，那么可以考虑拆分策略。

我们将日志文件拆分到1024个文件中。拆分策略可以选择为按照ip地址的散列值，即除以1024的余数作为分配依据。每个文件最多容纳4M的ip地址。

对于每个小文件，构建以ip地址为key，出现次数为value的hash_map.这样统计出每个小文件出现最多的那个ip地址，然后就可以得到2014个文件中访问次数最多的那个ip地址。

2、有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。如何按照query的频度排序？

这其实就是一个归并排序的思路。

1）按照上一题的方法把重新得到10个文件，按照hash(query)%10的结果将query写到对应的文件中。这样我们就有了10个大小约为1G的文件。任意一个query只会出现在某个文件中。利用hash_map统计每个query出现的次数。
　2）利用堆排序算法对query按照出现次数进行排序。这样我们就获得了10个文件，每个文件中都是按频率排序好的query。
　3）对获得的10个文件进行归并排序，并将最终结果输出到文件中。

3、求一个论坛的在线人数，假设有一个论坛，其注册ID有两亿个，每个ID从登陆到退出会向一个日志文件中记下登陆时间和退出时间，要求写一个算法统计一天中论坛的用户在线分布，取样粒度为秒。

一天总共有3600*24=86400秒。定义一个长度为86400的整数数组int array[86400]，每个整数对应这一秒的人数变化值，可能为正也可能为负。

开始时将数组元素都初始化为0。然后依次读入每个用户的登录时间和退出时间，将与登录时间对应的索引值加1，将与退出时间对应的索引值减1。
遍历一遍之后，数组中存储了每秒中的人数变化情况。可能为正也可能为负值。对前n个值累加即可得到第n秒的再现人数。

for(int i=1;i<86400;i++){array[i]+=array[i-1];}这样就可以获得一天中任意时间的在线人数。

一的三次方

博客等级

码龄11年

111
原创

14
点赞

56
收藏

10
粉丝

关注

私信

热门文章

分类专栏

leetcode经典题目 1篇
为什么设计 2篇
内功修炼 10篇
算法 14篇
leetcode 69篇
系统设计 18篇
编程范式 14篇
翻译 4篇
杂谈 7篇

展开全部收起

上一篇：: 如何应对系统设计的面试（上）

下一篇：: leetcode | 112. Path Sum(递归&&迭代)

最新评论

系统设计 | 设计限流器
huihttp: 可以使用令牌桶算法，这样每次访问只需要存储userid{上次访问时间，上次访问完剩余令牌数}，用户每次访问是根据上次访问时间和上次剩余令牌数算出来当前的令牌数,如果令牌数大于0可以放行,然后减一存到redis里,覆盖令牌信息,这样1M用户量只需要（8+4+2+20）*1M = 34M 空间就可以存下来所有的数据，而且跟访问限制频率N无关，而且我们可以设置过期时间，例如我们想限制一个用户(或者一个IP)一分钟内只能访问500次,那么令牌桶大小是10,生成令牌频率设置为2ms,设置redis过期时间是一分钟即可,这样保证内存里只有一分钟内访问的用户令牌信息,如果一分钟内没有访问的用户A我们redis里读不到他的令牌信息,认为用户A的令牌桶是满的进行处理即可

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。