1、有1亿个浮点数,请找出其中对大的10000个。
2、有一篇英文文章(也就是说每个单词之间由空格分隔),请找出“csdn”出现的次数,要求效率最高,并写出算法的时间级。
3、假设有1千万个身份证号,以及他们对应的数据。身份证号可能重复,要求找出出现次数最多的身份证号。
4.、百度每天都会接受数亿的查询请求, 如何在这么多的查询(Query)中找出高频的Query是一个不小的挑战. 而你的任务则更加艰巨, 你需要在极其有限的资源下来找出这些高频的Query.(使用内存不得多于1MB) 。输入文件是一行一个Query, 以文件结束符结尾。每个Query字节数L(一个汉字两个字节)满足:0<=16. 输入大小不超过1GB(包括换行符)。 输出你认为最高频的100个query. 每行一个, 不能有重复, 不能多输出, 但可以少输出。
5、假设搜索的输入信息是一个字符串,现统计300万输入信息中的最热门的前十条,我们每次输入的一个字符串为不超过255byte,内存使用只有1G。
6、国内的一些帖吧,如baidu,有几十万个主题,假设每一个主题都有上亿的跟帖子,怎么样设计这个系统速度最好。
7、若有很大的一组数据,数据的个数是N(每个数占4个字节),内存大小为M个字节,其中M<4*N,使得不能在现有内存情况下通过直接排序找到这N个数的中位数。
----类似题目:在一个文件中有 10G 个整数,乱序排列,要求找出中位数,内存限制为 2G。
8、有10亿个整数,要求选取重复次数最多的100个整数