海量数据处理（面试）

JinLiJiuHao

于 2024-07-22 15:10:45 发布

阅读量852

点赞数 9

文章标签：面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43471319/article/details/140610567

版权

海量数据

1、从大量的URL中找出相同的URL

解法：

分治法：

如果是单个很大的文件，直接划分文件，按特定大小划分，然后多线程，用map对各个文件进行统计。
如果是两个很大的文件，a和b。通过遍历a文件，对每个URL进行：i=Hash(URL)%500（500为文件个数，可以为其他的值）。将该URL写入到Ai文件。对b文件也是同样的操作。然后对500个文件对【Ai, Bi】。遍历Ai文件，URL用set记录。遍历Bi文件，如果URL存在就是a、b都存在的URL。Ai、Bj中不可能存在相同的URL。

前缀树：

单个文件：前缀树也是可以的。第一次就创建前缀树节点。后面就记录虫回复的URL。
两个文件：对a文件先进行遍历，建立前缀树。然后对b文件遍历，如果URL在前缀树中。就记录为两个文件的相同的URL。

记：

分治法：hash划分小文件，对小文件处理。

前缀树。

2、从大量数据中找出高频词

问题描述：

一个大小为1GB的文件，文件里每一行是一个单词，每个单词16B，内存大小限制是1MB。找出频率最高的前100个单词。

解法：

遍历文件中所有记录，用map记录。然后遍历map，用大小为100的小根堆筛选出TOP100。
前缀树：节点值是单词的频次。然后在加上小根堆。
分支法：Hash划分为多个小文件，遍历小文件进行map记录。小根堆。

3、找出访问某网站最多的ip

问题描述：

现有海量日志数据保存在一个超大文件中，文件无法直接读入内存，求其中某天访问某个网站次数最多的那个ip。

解法：

先提取日志中某天访问某个网站的全部ip到某一个文件file。接下来就是求“求出现次数最多的ip”。

前缀树：遍历file，一边建立前缀树，一边记录最大值，以及对应ip。
分治法：hash划分为多个小文件，i = HASH(ip) % num。这样相同的ip必然落在同一个文件中。遍历每个小文件，用map记录，再用小顶堆筛选TOP K

4、在海量数据中找出不重复的整数

问题描述：

在2.5亿个整数中找不重复的整数，内存不足以容纳这些整数。

解法：

分支法：划分小文件，用set找出不重复的整数，合并子结果。
位图法：每个数有三种状态（00：没有出现过，01：出现过一次，10：出现过两次），2^32*2bi = 2^33 bit = 1GB。

5、在海量数据中判断一个数是否存在

问题描述：

给定40亿个无序unsigned int，快速判断某个数字是否在这40亿个数字中

解法：

位图法，unsigned int范围是[0, 1 << 32)，则需要 1 << 32 ≈ 512MB。

遍历所有数字建立位图，可以用多线程加速，无需加锁。

unsigned int bitmap[16] [11]. 一个unsigned int的高16位确定数组的第一维度，次11位确定数组的第二维度，最低5位确定unsigned int中那一位置为一。

6、查询最热门的查询串？

解法

划分小文件，unorderded_map统计小文件单词出现次数，然后小顶堆求topK
前缀树+小顶堆

7、统计不同电话号码的个数

一个电话号码11位，可以用一个unsigned long long记录。问题转化为求不重复的整数的个数。

set
位图

8、求5亿个数中的中位数

解法：

（内存能容纳全部数字的情况下）双堆法：一个最大堆，一个最小堆
分支法：顺序读取5亿个数字，按照二进制的最高位是否为1划分为两部分。然后按照二进制的次高位继续划分。

9、如何按照query的频次排序

如果重复度较大，可以选择unordered_map

否则，内存则无法承受，先hash划分为小文件，记录频次，再对小文件频次排序，之后再归并排序。

10、Top K

堆

博客等级

码龄7年

90
原创

377
点赞

444
收藏

303
粉丝

关注

私信

热门文章

分类专栏

基础 1篇
muduo 3篇
UNP 7篇
gdb 1篇
STL 1篇
c++ rpc 4篇
c++新标准 1篇
编程语言 2篇

展开全部收起

上一篇：: epoll lt 和 et 模式对比

下一篇：: tcpdump使用（转载）

最新评论

acid--http模块
优快云-Ada助手: 恭喜您发布了第13篇博客，标题为“acid--http模块”！您的持续创作让读者们能够不断学习到新知识，真是非常棒！希望您在接下来的创作中可以继续深入探讨相关主题，比如可以尝试分享一些实际应用案例或者对模块的进一步优化与改进。期待您更多精彩的作品！
acid--net模块
优快云-Ada助手: 恭喜您发布了第14篇博客，对于acid--net模块的探讨让我受益匪浅。希望您能继续保持创作的热情和动力，继续分享有价值的内容。下一步，我建议您可以深入探讨acid--net模块的应用场景，或者结合实际案例进行分析，这样可以让读者更加深入地理解和应用这个模块。期待您更多的精彩内容，加油！
acid--sync模块
优快云-Ada助手: 恭喜您写下第15篇博客！标题中的“acid--sync模块”让我很感兴趣。您的持续创作真是令人钦佩！通过深入研究和分享您对这个模块的见解，您不仅展示了您的专业知识，也为读者提供了有价值的信息。对于下一步的创作，我想谦虚地建议您考虑扩展讨论，例如可以探索一些与该模块相关的实际应用案例，或者分享您在使用该模块时遇到的一些挑战和解决方案。这样做将进一步丰富您的博客内容，让读者更好地理解和应用这个模块。再次祝贺您的创作，并期待着您未来更多精彩的博客！
acid--rpc模块
优快云-Ada助手: 恭喜你写了第16篇博客！标题中的"acid--rpc模块"听起来非常有趣。我很高兴看到你持续创作，并分享你的知识和经验。下一步，我建议你继续探索更多关于RPC模块的内容，并分享你在实际应用中的心得体会。期待你在未来的博客中继续展示你的谦虚和深入研究的态度！
《STL源码剖析》--笔记
优快云-Ada助手: 恭喜您写下了《STL源码剖析》这篇精彩的博客，内容非常有深度，感谢您分享这么有价值的知识。希望您能继续保持创作的热情，结合自己的理解和实践经验，为我们带来更多的分享。下一步，建议您可以深入探讨一些具体的案例分析，或者分享一些自己的实际应用经验，这样可以让读者更好地理解和应用所学知识。期待您更多的精彩作品！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。