hadoop经典相关面试题以及答案

酷爱码

已于 2025-05-28 07:34:00 修改

阅读量492

点赞数 11

分类专栏：大数据基础教程大数据面试题文章标签： hadoop 大数据分布式

于 2025-03-27 22:03:31 首次发布

本文链接：https://blog.youkuaiyun.com/huayula/article/details/146572715

版权

大数据基础教程同时被 2 个专栏收录

23 篇文章

订阅专栏

大数据面试题

8 篇文章

订阅专栏

Hadoop经典面试题及解析

1. HDFS架构核心组件

问题：NameNode和DataNode的作用是什么？
解析：

NameNode：存储元数据（文件目录树、块位置映射），管理文件系统命名空间，处理客户端请求
DataNode：存储实际数据块，定期向NameNode发送心跳和块报告
Secondary NameNode：辅助合并fsimage和edits文件（非热备节点）

2. MapReduce执行流程

问题：描述WordCount程序的执行过程
解析：

// Mapper阶段
map(String key, String value):
    for word in value.split():
        emitIntermediate(word, "1")

// Reducer阶段
reduce(String key, Iterator values):
    int sum = 0;
    while(values.hasNext()) sum += parseInt(values.next());
    emit(key, sum)

过程分解：

输入分片（Split）
Map任务处理生成键值对
Shuffle阶段排序分组
Reduce任务聚合结果

3. 数据倾斜解决方案

问题：如何处理MapReduce中的数据倾斜？
方法：

预处理数据采样（Combine抽样检测热点Key）
自定义Partitioner将热点Key分散到不同Reducer
使用随机前缀打散Key（如： $KaTeX parse error: Expected 'EOF', got '#' at position 32: …iginal\_key + "#̲" + random(3)$ ）
开启Combiner预聚合

4. HDFS读写流程

问题：描述文件写入HDFS的过程
流程：

客户端向NameNode申请写入
NameNode返回DataNode列表（含副本存储位置）
客户端建立管道传输数据块
DataNode完成副本复制后返回确认

5. YARN架构原理

问题：YARN如何实现资源管理？
组件：

ResourceManager：全局资源调度（含Scheduler和ApplicationsManager）
NodeManager：单节点资源监控与容器管理
ApplicationMaster：单个应用的任务协调

资源分配公式：
$total\_container = \frac{cluster\_memory}{container\_memory} \times \frac{cluster\_vcores}{container\_vcores}$

6. 小文件问题处理

问题：HDFS存储小文件有什么影响？如何优化？
解决方案：

使用Har归档文件（Hadoop Archive）
合并小文件为SequenceFile
调整HDFS块大小参数（dfs.blocksize）
使用CombineFileInputFormat

7. 容错机制

问题：Task失败后如何恢复？
机制：

TaskTracker定期发送心跳
若Task失败超过4次（可配置），任务标记为失败
ApplicationMaster重新调度任务到其他节点
已完成的Map任务结果会被保留

8. 推测执行原理

问题：什么是推测执行（Speculative Execution）？
原理：
当检测到某个Task比同阶段其他Task慢时（通过进度百分比比较），启动备份任务并行执行，最终取先完成的结果。判断公式：
$progress\_rate = \frac{current\_progress - last\_progress}{time\_diff}$
当某Task速率低于平均速率的 $0.2$ 倍时触发推测执行。

9. Hadoop 1.x与2.x差异

对比：

特性	Hadoop 1.x	Hadoop 2.x
资源管理	JobTracker统一管理	YARN分层架构
扩展性	最大4000节点	支持10000+节点
高可用	NameNode单点故障	NameNode HA（双主热备）