大数据面试题个人整理(一)

这篇博客整理了Hadoop相关的大数据面试题目,涵盖了MapReduce、YARN、NameNode、SecondaryNamenode和Datanode的工作原理及故障恢复等核心知识点,帮助读者深入理解Hadoop生态系统。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据面试题个人整理(一)
Hadoop相关试题
1、MapTask并行机度是由什么决定的?
由切片数量决定
2、MR是干什么的?
MR是将用户编写的业务逻辑代码和自带的默认组件结合起来组成一个完整的分布式应用程序放到Hadoop集群上运行。它是分布式离线计算框架。
3、combiner和partition的作用
combiner是将mapTask的输出进行局部汇总,以减少网络传输。
partition的默认实现是hashpartition,它的作用是将数据分到不同的reduce进行计算,加快计算效率。
4、什么是Shuffle?
map阶段处理的数据如何传递给reduce阶段,是mapreduce中最重要的一个流程,这个流程就叫做shuffle.
具体来说,shuffle就是将maptask输出的结果数据,分发到reducetask,分发过程中,对数据按key进行了分区和排序。
5、什么是yarn?
Yarn是一个资源调度平台,负责为运算程序提供服务和资源调配,相当于一个分布式操作系统平台,而mapreduce就相当于是运行在操作系统上的应用程序。
6、namenode的safemode是怎么回事,什么是安全模式?
安全模式就是HDFS所出的一种特殊状态,在这种状态下,文件系统只接受读数据请求,不接受删除,修改等变更请求。在namenode主节点启动时,HDFS首先进入安全模式,Datanode在启动时候会向namenode发送可用block状态信息,当整个系统达到安全标准时,HDFS自动离开安全模式。如果HDFS处于安全模式下,则文件block块不能进行任何的副本复制操作,因此达到最小的副本要求是基于DataNode启动时的状态来判定的,启动时不会再做任何的复制(从而达到最小副本数量要求)
7、NameNode职责?

  1. 负责客户端请求的响应
  2. 负责元数据的管理

8、元数据的存储机制?
A. 内存中有一份完整的元数据
B.磁盘中有一份准完整的元数据镜像(fsimage)文件,储存在namenode的工作目录中
C.用于衔接内存meta

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值