MapReduce相关的几道面试题

最新推荐文章于 2025-10-10 23:09:56 发布

转载最新推荐文章于 2025-10-10 23:09:56 发布 · 1.1k 阅读

·

0

·

大数据同时被 2 个专栏收录

10 篇文章

订阅专栏

8 篇文章

订阅专栏

转载自微信公众号hadoop123

现有100TB的用户查询词（从搜索引擎日志中提取出来的），如何用MapReduce计算出现次数最多的K个查询词？如何对你设计的算法进行优化？考虑的优化点有：如果一个查询词出现次数非常多，产生的负载倾斜问题会不会导致你的算法性能非常低下，等等。
现有100TB的网页文档（文档库），很容易统计出每个文档中每两个词（词对）出现频率，设计一个MapReduce算法统计出现在超过10个文档中的词对，比如以下文档 I am a good man
那么词对有I am，I a，I good， I man， a man， am good ……
设计出算法之后，尝试考虑从以下几点进行优化：
（1）在Map阶段，一个Map Task可能会输出大量的临时数据，这可能会带来什么性能问题？如何对其进行优化？
（2）假设现在有一个词频表，已经统计出了文档库中每个词出现的频率，怎么利用这个词频表优化你的mapreduce程序？
（3）如果词频表非常大，内存放不下，有哪些数据结构可以节省内存？
（4）如果尝试使用各种数据结构后，词频表仍无法保存到内存中，如何进行解决该问题？
目前有很多基于MapReduce的数据挖掘库、机器学习库和图算法库，尝试基于MapReduce实现最短路径算法。
Hadoop MapReduce提供了什么机制允许一个作业的各个任务间共享只读文件？尝试描述该机制的工作原理。
请描述MapReduce中shuffle阶段的工作流程？如何优化shuffle阶段？
一个MapReduce作业的Map Task数目是如何决定的？一般情况下，在Hadoop中，一个处理文本文件的作业的Map Task是如何计算的？
什么叫数据本地性？Hadoop采用了哪些机制提高任务的数据本地性？
描述Hadoop MapReduce的容错机制。
MapReduce中Partitioner的作用是什么，哪些情况下需要自定义Parititioner？
MapReduce中Combiner的作用是什么，它一般用于哪些场景？举出一个不能使用Combiner的例子。
MapReduce中排序发生在哪几个阶段？这些排序是否可以避免，为什么？
编写MapReduce作业时，如何做到在Reduce阶段，先对key排序，再对value排序？
如何使用MapReduce实现两表join，可考虑以下几种情况：（1）一个表大，一个表小（可放到内存中）（2）两个表均是大表
如何使用MapReduce实现全排序（即数据全局key有序）？你给出的算法可能要求仅启动一个Reduce Task，那么如何对算法改进，可以同时启动多个Reduce Task提高排序效率。
如何对MapReduce作业进行调优（可从参数配置、程序编写等角度说明）
电话面试，请描述MapReduce的设计架构。
如果对MapReduce系统进行调优（可从操作系统配置、参数配置等角度说明）
Hadoop MapReduce中资源管理模型是怎样的，有什么缺点，如何改进？
解释什么是Capacity Scheduler？
Hadoop 2.0中YARN是什么？（最近部分明年毕业的同学找工作过程遇到了关于YARN的笔试题，比如今天的EMC笔试题）
YARN和MapReduce有什么关系？

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。