海量数据面试题

最新推荐文章于 2023-10-22 19:27:19 发布

原创最新推荐文章于 2023-10-22 19:27:19 发布 · 375 阅读

1 ·

CC 4.0 BY-SA版权

数据结构（C实现）专栏收录该内容

18 篇文章

订阅专栏

本文介绍在有限内存下处理大规模数据集的有效算法，包括通过文件切割和哈希表找到唯一整数，利用位图存储技术寻找出现频率不超过两次的整数，以及通过文件切割和散列函数找出两个大型文件的交集。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、给定100亿个整数，设计算法找到只出现一次的整数；

先将100亿个整数切割到100个文件中，每个文件利用哈希表存储，找出每个文件中只出现一次的整数，再合并最后找出只出现一次的整数。

2、给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集；

和上题一样，先将两个文件都利用相同的散列函数各切割为100份，并且将两个文件的切割文件按一样的规律编号，再将相同编号的文件进行合并找出交集，最后将找出的交集进行合并就找到所有的交集。

3、1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数；

用俩个bit表示状态，00,表示未出现过，01表示出现过一次，11表示出现多次，利用位图进行存储。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

swo_ows

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

海量数据面试题总结，这下面试不慌了！

weixin_70730532的博客

07-08

624

文章目录海量日志数据，提取出某日访问百度次数最多的那个IP寻找热门查询，300万个查询字符串中统计最热门的10个查询有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？2.5亿个整数中找出不重复的整

海量数据处理算法与面试题

weixin_30664615的博客

02-19

100

九章微课 1.最高频 K 项问题前导问题：前k大数在一个整数数组中，找最大的k个数这个问题有在线和离线两种解法: 离线算法：允许多遍遍历数组。排序后找的方法时间复杂度O(nlogn)，但是需要找O(n)的解法。答案就是使用快速选择算法，先一遍遍历找到第k大的数，然后再一遍遍历找到前k大的数，总复杂度为o(n) 在线算法：数据以数据流进入，只允许一遍遍历。...

1 条评论您还未登录，请先登录后发表或查看评论

【C++】哈希应用——海量数据面试题

最新发布

m0_70088010的博客

10-22

351

注意点：如果我们存储100亿个整数的话，在堆中需要申请大约40个G的空间，这个空间是非常大的，而我们利用位图来解决这个问题的时候，我们就只需要512MB，也就是代码中的4294967295，两个位图才只需要1个G的空间。3、由于哈希切分时使用的是同一个哈希函数，因此相同的IP地址计算出的 i i值是相同的，最终这些相同的IP地址就会进入到同一个Ai小文件当中。方法是依次读取文件中的整数的值，将其映射到一个位图中，再读取另一个文件中的所有整数，判断在不在位图中，在就是交集，不在就不是交集。

大数据处理题型分析

qq_41094930的博客

05-14

715

1.给定100亿个整数，设计算法找到只出现一次的整数;解题思路：有100亿个整数，一个整数4字节,共所占空间:100亿*4字节 = 10G*4 = 40G;所有整数的范围为0到42亿9千万；需要找到只出现一次的整数，那么我们就可以直接断定一个数出现的状态就有三个-------->没有出现，出现1次，出现1次以上。三种状态用两个二进制位足以表示；使用位图的变形就可完成这个题的解答（由原来位图的...

海量数据的解决思路

diediexiaomi的博客

08-20

348

1）给定100亿个整数，设计算法找到只出现一次的整数解题思路：使用hash将所有整数映射到1000个文件中，在每个文件中使用位图，用两个bit表示出现次数，00表示没出现过，01表示出现过1次，10表示出现过多次，11舍弃，最后归并每个文件中出现只有1次的数即为所求。 2）给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集解题思路：（1G=2^30B=10

哈希面试题--海量数据

virgofarm的博客

05-28

775

哈希切割top K问题给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？与上题条件相同，如何找到top K的IP？（1）文件太大，100g，肯定不可能一次加载到内存进行处理，这里就必须将文件进行切割了，可是依据哪种方法进行切割呢？假设只是从前到后等份切割的话，将文件切割n份(切割的份数依据所给的内存大小)，第一份中假设IP地址为a...

SQL数据库对于海量数据面试题及答案.pdf

07-14

"SQL数据库对于海量数据面试题及答案" 本文整理和大家分享一些SQL 数据库对于海量数据面试题及答案给大家，很不错哦，喜欢请收藏一下。问题 1：找出 a、b 两个文件共同的url 给定 a、b 两个文件，各存放50 亿个 ...

海量数据面试题整理：深度解析与高效算法

本资源是一份详尽的海量数据面试题整理文档，包含了多个与大数据处理、存储、查询以及性能优化相关的题目。以下是一些核心知识点： 1. **数据压缩与存储**：文件提到的“1000СļΪС”表明了面试者可能会被问及...

SQL数据库对于海量数据面试题及答案

01-08

本文整理和大家分享一些SQL数据库对于海量数据面试题及答案给大家，很不错哦，喜欢请收藏一下。

实现一个位图、100亿个整数找出只出现一次的整数、找出现次数不超多2次的数

Steve_Abelieve

08-05

3772

1.–实现一个位图。位图特点：节省空间适合数据比较密集的情况适合判断事件是否这样的问题相关位运操作： & | ~ 代码实现：#include<iostream> #include<vector>using namespace std;// //1.【基础题】--实现一个位图。 //位图特点：节省空间，适合数据密集的情况 class BitSet {

海量数据问题解决思路

是胖胖没错了的博客

08-21

631

1.给定100亿个整数，设计算法找到只出现一次的整数？分析：100亿个整数大概占用40G内存空间数据出现的次数分为3种：出现0次、出现1次、出现2次及以上使用位图来解决问题，两个位表示一个整数：00、01、10 2.给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？方案一：将其中一个文件的整数映射到一个位图中，读取另外一个文件的整数，判断在不在位图中，在就是交集，消耗500M内存。方案二：将其中一个文件的整数映射到一个位图中，将另外一个文件的整数映射到另外一个位图中，然后

海量数据处理

向未来❀去探索的博客

09-16

1121

海量数据处理

大数据面试题解决方案

shangguan_1234的博客

11-09

1952

1）给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？! 解决方法将100G分成100份，将每个ip映射到相应文件中 ip_if=ip%100 找出每个文件中的出现次数最多的一个ip 再将100份里找出来的最多的一个放入一个哈希表中进行比较找出最大值 2）与上题条件相同，如何找到top K的IP？如何直接⽤用Linux系统命令实现？

面试题—哈希，位图，布隆，倒排索引

MUMU23333的博客

03-03

1113

哈希切割top K问题给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？解题思路：由于是100G文件，文件太大不能完全加载到内存中去，所以将文件分成1000份，每份大约500M，计算机内存完全可以存下。那么如何统计相同IP的次数，这里运用哈希切分，使用散列函数（如BKDRHash）依次将所有文件的IP地址转为整...

10亿int型数，统计只出现一次的数

顾小馨的程序媛之路

09-16

697

转载 https://blog.youkuaiyun.com/u010983881/article/details/75097358

面试题之10亿正整数问题

weixin_44626952的博客

11-08

1260

10亿个正整数，只有其中1个数重复出现过，要在O(n)的时间里面找出这个数，内存要尽可能少（小于100M）。谢谢absolute同学提出的问题。部分解答（还有没有完成的部分）：首先看一下10亿个正整数，正整数可以表示的范围为1到2的31次方-1。 10亿也就是1*10^9，2^31次方=2*1024*1024*1024>20亿再想起int为32位。 ...

面试题之海量数据处理

weixin_44919969的博客

03-23

248

海量数据处理： 1.给定40亿个不重复的无符号数，没排过序。给一个无符号数，如何快速判断一个数是否在这40亿个数中？第一种:位图第二种：布隆过滤器原理： 2.给一个超过100G大小的lo...

数据结构_海量数据面试题

cute_shuai的博客

03-02

392

面试题 1.哈希切割top K问题给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？ 2.位图应用给定100亿个整数，设计算法找到只出现一次的整数给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集 1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所...