一线大厂面试真题-在2G大小的文件中，找出高频top100的单词

似来

已于 2024-01-02 21:34:54 修改

阅读量661

点赞数 9

CC 4.0 BY-SA版权

分类专栏：一线大厂面试题文章标签：面试职场和发展开发语言 java 分布式

于 2024-01-02 19:51:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gnwu1111/article/details/135348512

一线大厂面试题专栏收录该内容

21 篇文章

订阅专栏

本文讨论了面试中常见的TopK问题，针对2G大文件和内存限制，提出将文件分割、使用hash表统计单词频率、多线程并行处理和堆排序的解决方案。核心思想在于分治法和数据结构优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

问题解析

这是一个典型的top k问题，在面试的时候，会产生很多变体。

但是不管怎么变，top k问题的本质是一样的。

另外，对于这类问题，我们可以发散自己的思维去回答，因为这类问题本身没有啥标准答案。

面试官更多的是去考察候选人的技术思维和技术积累，因此大胆一点回答没有关系。

这个问题的关键因素有两个：

1. 2G大小的文件，意味着文件很大并且也无法一次性load到内存里面

2. 需要从这么大的文件中做筛选，如果用普通的思维方法，查找速度很慢因此可以从这两个方面着手去思考回答思路。

问题解答

1. 把2G的文件进行分割成大小为512KB小文件，总共得到2048个小文件，避免一次性读入整个文件造成内存不足。

2. 定义一个长度为2048的hash表数组，用来统计每个小文件中单词出现的频率。

3. 使用多线程并行遍历2048个小文件，针对每个单词进行hash取模运算分别存储到长度为2048的hash表数组中

inthash=Math.abs(word.hashCode()%hashTableSize);

hashTables[hash].merge(word,1,Integer::sum);

4. 接着再遍历这2048个hash表，把频率前100的单词存入小顶堆中

5. 最后，小顶堆中最终得到的100个单词，就是top 100了。

这种解决方案的核心思想是将大文件分割为多个小文件，然后采用分治和堆的算法，来解决这个问题。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。