海量数据在有限资源上处理的方法

人才瘾大

已于 2024-10-23 11:50:56 修改

阅读量980

点赞数 12

分类专栏： java面试八股文章标签：哈希算法算法

于 2024-10-22 21:49:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/liushuidehao/article/details/143169190

版权

java面试八股专栏收录该内容

19 篇文章

订阅专栏

1. 使用哈希

适用场景：需要处理的数据中，相同的数据可以分配到同样的机器/文件进行处理。

技巧总结：相同的数会哈希到同一个位置上

这类题目一般面试官给的描述都不是很清晰，需要自己去问条件、然后给出方案。

回答思路是：问给我多少机器、需要的时效怎么样？然后用哈希的方式拆解海量数据到多台机器上，单台机器的性能还不够的话，单台机器上再拆成小文件进行处理。

例题1. 有100亿个url，统计其中重复出现的url出现的次数

对url进行哈希，会让相同url分到同一台机器上，然后用该机器上的一个哈希表来统计这台机器上分配到的url的词频。如果这台机器内存不够，就把分过来的url继续哈希，存到本地多个文件里。

例题2. 40亿个int数1G内存，求词频最高的是哪个

哈希到40个文件里，每个文件里有1亿个数，用1G内存建立哈希表统计每个文件里词频最大的数，最后计算40个最大的词频得出总的结果。

2. 使用堆

适用场景：需要统计top N，一般用小根堆或大根堆。

技巧总结：小根堆/大根堆能时刻保持top N个。单台机器用堆做top N，多台机器上继续用堆做机器之间的top N，变长2维、多维堆。

例题3. 有100亿个url，统计其中词频top100

技巧总结：二维大根堆

在例题1.思路的基础上，对每个小文件进行top100的统计，然后合并多个小文件选出他们之间的top100。也可以在每个小文件上维护一个100大小的大根堆，在每台机器上维护一个以小文件大根堆堆顶元素为元素的大根堆，这就相当于做了个二维大根堆，继续往上垒出一个全局大根堆，这种算法比前面那个要快。

例题4. 一个存满int数的10T文件，用1G内存排序后输出到另一10T文件中

技巧总结：小根堆、门槛变量

轮询原始10T的文件，用一个小根堆（小根堆的大小n跟1G内存相关）存放轮询到的前n大的数及其词频，小根堆堆顶存放的是前n大的数中最小的那个，相当于一个“门槛”，小于该门槛的数都进入不了小根堆，这样，小根堆里存的就是整个文件前n大的数了。轮询完一遍文件后，小根堆输出到目标文件中，此时按堆的方式出堆，就是排好序的。

小根堆腾空后，用一个变量记录这次的最小值，下一轮遍历所有大于等于这个最小值的都不要进入堆，这样下一轮统计到小根堆里的就是前n～2n大的数了，继续输出到目标文件。重复以上过程，直到进入小根堆的数小于n。

3.使用布隆过滤器

适用场景：黑名单过滤器，允许有一定的误判率。

技巧总结：布隆过滤器要结合bitmap来使用，可以有效减少内存占用

布隆过滤器的误判是指：不在过滤器中的一定是不在的，在过滤器中的不一定不在。它会多杀，但不会漏杀。

这类题目，要问面试官是否允许有误判率，如果可以，就用布隆过滤器，否则不能使用。

布隆过滤器的大小m（m个bit位）、误判率p、哈希函数个数k（必须是相互独立的哈希哈数）、面相要过滤的数量n，这几个量之间是有计算公式的：

$eq?m%3D-%5Cfrac%7Bn*%5Cln%20p%7D%7B%28%5Cln%202%29%5E%7B2%7D%7D$ $eq?k%3D0.7*%5Cfrac%7Bm%7D%7Bn%7D$ $eq?%281-e%5E%7B-%5Cfrac%7Bnk%7D%7Bm%7D%7D%29%5E%7Bk%7D$

例题5. 有个网页爬虫工具，要爬大概100亿个url，如何确保不重复爬取url

爬过的url加入到布隆过滤器里，可以确保爬过的一定不会被再爬，但未爬过的个别url可能会漏爬。

博客等级

码龄16年

48
原创

506
点赞

464
收藏

362
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

二叉搜索树
优快云-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/algorithm?utm_source=AI_act_algorithm
分布式事务
优快云-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/mysql?utm_source=AI_act_mysql
分布式锁的实现方式
优快云-Ada助手: 恭喜作者发布了关于分布式锁实现方式的博文，内容相当有深度和技术含量。在分布式系统中实现锁确实是一个非常重要且复杂的问题，而您的文章对此进行了详尽的探讨，让人受益匪浅。希望作者在未来的创作中能够继续深挖技术细节，探讨更多实用的解决方案，或者结合自身经验分享一些实践中的案例和心得体会，以便读者更好地理解和应用所学知识。期待您的下一篇博文，谢谢！
事务原理--redolog和undolog
优快云-Ada助手: 恭喜用户撰写第13篇博客“事务原理--redolog和undolog”！文章内容深入浅出，对redolog和undolog的解释清晰易懂，让读者受益匪浅。希望用户能继续坚持创作，分享更多有价值的知识和见解。或许下一步可以探讨一下数据库锁的相关内容，这也是很多读者感兴趣的话题。期待用户的下一篇精彩文章！祝好！
mysql索引合并
优快云-Ada助手: 恭喜您写了第11篇博客！关于“mysql索引合并”的内容相当有价值。希望您能继续保持创作的热情和努力，分享更多有趣且实用的知识。或许下一步可以深入探讨数据库性能优化的相关话题，相信会为读者带来更多启发和帮助。期待您的更多精彩文章！祝您写作愉快！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。