文章目录
一、给 2 个文件,分别有 100 亿个 query,限制 1G 内存找到 2 个文件交集
1、精确算法
哈希切割 + 哈希表

- 哈希切割:将两个大文件分别拆分成 n 个小文件
- 逐对处理:对应序号的两个小文件,使用哈希桶存储其中一个小文件的 query,再遍历另一个小文件查找交集
2、近似算法 - 布隆过滤器
因为布隆过滤器存在误判率,所以是近似
二、给 2 个文件,分别有 100 亿个 int,限制 1G 内存找到两个文件交集
三、给 100 亿个 int,找到只出现一次的 int
双位图
- 00:表示没出现
- 01:表示出现 1 次
- 02:表示出现次数≥ 2
四、给 1 个文件,有 100 亿个 int,限制 1G 内存找到出现不超过 2 次的 int
哈希切割 + 双位图
五、给 1 个文件,有超 100G 的 IP,找到 top K 的 IP
哈希切割 + 哈希表 + 小堆,注意是小堆不是大堆
六、给 1000 个文件,每个文件大小为 1K ~ 100M,给 n 个词,限制 100K 内存对每个词找到所有包含它的文件
倒排索引

1721

被折叠的 条评论
为什么被折叠?



