面试准备之-海量数据处理题目

最新推荐文章于 2023-12-07 09:19:18 发布

DDHKing

最新推荐文章于 2023-12-07 09:19:18 发布

阅读量487

点赞数

CC 4.0 BY-SA版权

分类专栏：码农基础之路文章标签：海量面试

本文链接：https://blog.youkuaiyun.com/baidu_34674626/article/details/78018583

经过好久的面试，海量数据的题目虽然老套，但是还是会经常出。

下面，尤其对海量性的题目作一下总结

http://www.cnblogs.com/simonote/articles/3087185.html

题目一:100w个数据里面，选出最大的100个数

方法1：堆排序的方法，维护一个100个数的堆，每次一个数，和堆最上面的数比较，堆顶是100个里面最小的数（最小堆），假如比堆顶大，则删除堆顶，放新的数，然后下沉（复杂度log100），因此总复杂度为(nlog100)

方法2：partition方法，快排的思想

题目二：海量日志数据，提取出某日访问百度次数最多的那个IP。

首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DDHKing

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

场景题面试题——第一篇

weixin_42824596的博客

09-23

708

海量数据处理是指基于海量数据的存储、处理和操作。正因为数据量太大，所以导致要么无法在短时间内迅速解决，要么无法一次性装入内存。对于时间问题，可以采用巧妙的算法搭配合适的数据结构（如布隆过滤器、哈希、位图、堆、数据库、倒排索引、Trie树）来解决。对于空间问题，可以采用分而治之（哈希映射）的方法，也就是说，把规模大的数据转化为规模小的，从而各个击破。单机指处理装载数据的机器有限（只要考虑CPU、内存、硬盘之间的数据交互）

面试常见海量数据场景题

文杰的博客

02-21

3081

面试场景题整理

参与评论您还未登录，请先登录后发表或查看评论

【c++】——海量数据处理各种面试题（位图的实现和应用，布隆过滤器的应用，哈希切分）

sjp11的博客

03-01

1300

位图的概念位图是内存中连续二进制bit，然后对海量整数的去重和查询。在位图中，位图的下标是整数，所以整数映射到位图是位图的下标，位图存储的内容是0和1，0代表这个下标这个数是不存在的，1代表下标这个整数是存在的。我举个例子，给定长度为8bit大小的位图，将3，5，7这几个整数映射到该位图中，应该怎样做呢？ ps(蓝色代表的是0，橙色代表的是1）将3映射到位图中，找到位图的3下标，然后将3位置的bit位设置为1. 将5映射到位图中，找到位图的中5的下标，然后将5位置的bit位设置为1....

海量数据处理面试题

guangwen_lv的专栏

10-07

424

何谓海量数据处理？所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。那解决办法呢?针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树，针对空间，无非就一个办法：大而化

盘点面试中常见的超大规模数据场景算法问题

纵横千里捭阖四方的专栏

11-12

1398

在大部分算法题目中，默认给定的数据量都很小的，例如只有几个或者十几个元素，但是如果将数据量提高到百万甚至十几亿，那处理逻辑就会发生很大差异，这也是算法考查中，经常出现的一类问题。此时普通的数组、链表、Hash、树等等结构有无效了，因为内存空间放不下了。而常规的递归、排序，回溯、贪心和动态规划等思想也无效了，因为执行都会超时，必须另外想办法。这类问题该如何下手呢？这里介绍三种非常典型的思路：1.使用位存储，使用位存储最大的好处是占用的空间是简单存整数的1/8。

秒杀99%的海量数据面试题

08-21

一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如果读者读罢此文，却无任何收获，那么，我也甘愿背负这样的罪名，:-)，同时，此文可以看做是对这篇文章：十道海量数据处理面试题与十个方法大总结的一般抽象性总结。毕竟受文章和理论之限，本文将摒弃绝大部分的细节，只谈方法/模式论，且注重用最通俗最直白的语言阐述相关问题。最后，有一点必须强调的是，全文行文是基于面试题的分析基础之上的，具体实践过程中，还是得具体情况具体分析，且场景也远比本文所述的任何一种情况复杂得多。 OK，若有任何问题，欢迎随时不吝赐教。谢谢。

常见算法面试题--海量数据专题.doc

05-04

在处理海量数据的问题时，我们需要考虑如何有效地利用有限的内存资源，以及如何设计高效的算法来降低时间复杂度。以下是对给定题目中各个问题的详细解答： 1. **找共同URL**： - 方案1：使用哈希函数将URL分配到小...

面试题目-大数据量海量数据处理.pdf

09-30

这些面试题目聚焦于大数据量和海量数据的处理，涵盖了各种挑战，包括数据过滤、去重、排序、频率统计和热门元素提取。以下是对这些题目的详细解析和相关知识点： 1. **URL共现问题**：这是一个典型的集合交集问题，...

IT常见面试题-海量数据处理面试题集锦

04-13

IT常见面试题-海量数据处理面试题集锦，根据实际的面试经验，总结了网上的面试题目，并给出了详细解析

【大数据处理】海量数据处理经典面试题解析：涵盖URL匹配、查询频度排序及热门查询统计

最新发布

05-23

使用场景及目标：适用于大数据处理场景下的面试准备，帮助求职者掌握常见的海量数据处理技巧和优化策略；同时也能为实际工作中遇到的类似问题提供解决方案。阅读建议：由于题目涉及较多的算法细节和技术知识点，...

海量数据场景下的热门算法题

m0_53401014的博客

12-07

1072

教你如何迅速秒杀掉：99%的海量数据处理面试题

罗布泊coding

04-17

1221

前言一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌，但进一步来讲，如果读者读罢此文，却无任何收获，那么，我也甘愿背负这样的罪名，:-)，同时，此文可以看做是对这篇文章：十道海量数据处理面试题与十个方法大总结的一般抽象性总结。毕竟受文章和理论之限，本文将摒弃绝大部分的细节，只谈方法/模式论，且注重用最通俗最直白的语言阐述相关问题。最后...

面试海量数据处理题总结

向着星辰大海

04-15

1万+

参考：https://blog.youkuaiyun.com/v_july_v/article/details/6279498/ 目录 top k 问题 1、海量日志数据，提取出某日访问百度次数最多的那个IP。 2.统计最热门的10个查询串 3.有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。 4.有10个文件，每个文件1G，每个...

困扰已久的大数据场景题

qq_38835878的博客

08-03

1087

由于每次面试我都没有答出来该类场景题，现在做一个记录来避免下一次答不出来的困扰。另外感谢https://blog.youkuaiyun.com/v_july_v/article/details/7382693july 转载 1、海量日志数据，提取出某日访问百度次数最多的那个IP。内存为XXX。 (XXX一定是不足以存下所有的IP的） IP地址基数大概有2的32次方个，那么就将访问百度的日志中的IP...

海量数据面试题

行风

06-23

760

from: http://kenby.iteye.com/blog/1031124 一给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？两个50亿个url的文件，大概有50 0000 0000 * 64 B = 640G的大小，肯定不能全部读入内存，可以分组解决.准备1030个桶，读取两个文件的url，对每个url

面试必须掌握的十个海量数据问题及解决方案

热门推荐

hitxueliang的专栏

08-08

1万+

【场景题】海量数据Top K问题？有一个包含 10 亿个搜索关键词的日志文件，如何快速获取到 Top 10 最热门的搜索关键词呢？

weixin_45901764的博客

12-19

718

首先关键词肯定有很多重复的，所以我们要统计每个关键词出现的频率。可以通过散列表来记录关键词及其出现的次数。假设我们选用散列表。我们就顺序扫描这 10 亿个搜索关键词。当扫描到某个关键词时，我们去散列表中查询。如果存在，我们就将对应的次数加一；如果不存在，我们就将它插入到散列表，并记录次数为 1。以此类推，等遍历完这 10 亿个搜索关键词之后，散列表中就存储了不重复的搜索关键词以及出现的次数。然后我们再建立一个大小为10的小顶堆（堆顶是堆中出现频率最少的），遍历散列表，依次取出每个搜索关键词及对应出现的次

海量数据常见的面试题（频次最高+随机抽样）

碎碎絮語

03-12

2054

【在海量数据中统计出现次数最多的n个】分两种情况， 1 如果数据能够在内存中放下，比如如果海量数据是ip地址，最多有4G个ip地址，每个ip地址占4个字节需要内存16G，如果内存在几十G，则完全可以全部装入内存，直接读取大文件，然后创建一个hash表，统计次数，最后再用堆统计最大的n个 2 如果不能在内存放下，比如海量数据是字符串，不同的字符串个数无限，内存中可

面试数据分析师岗位要注意的几点

科多大数据的博客

09-29

5988

在数据分析行业摸爬滚打了些年成。将面试数据分析岗位前期的准备工作需要注意哪些要点，帮大家整理一下，希望对加入数据分析行业的小伙伴有帮助 ⑴ 不要轻易裸辞虽然跳槽需要决心，但是也不要完全不给自己留一条后路，这样会让自己从一个坑陷入到另一个坑中去。不要轻易裸辞的初衷是希望你有一颗平和的心态去寻找到中意的公司，而不是由于急迫去随意选择一家不符合自己职业规划的企业。一...

海量数据处理面试题与方法总结

这篇文章主要关注于两大主题：面试题与海量数据处理方法总结。首先，文章列举了两个具体的数据处理问题： 1. 题目一是海量日志数据中的IP访问频率统计。由于日志中可能包含4G个不同的IP地址，无法一次性全部加载...