HDFS 基本原理与操作流程

最新推荐文章于 2025-12-06 10:24:48 发布

原创最新推荐文章于 2025-12-06 10:24:48 发布 · 664 阅读

CC 4.0 BY-SA版权

文章标签：

在大数据体系中，HDFS（Hadoop Distributed File System） 是最核心的存储组件之一。它通过分布式架构解决了传统文件系统在大规模数据场景下的存储与容灾难题。

然而，很多初学者在第一次接触 HDFS 时，常常会困惑于以下问题：

本文将围绕 HDFS 的写操作、读操作、高可用机制以及联邦架构 展开讲解，并结合示意图帮助大家快速理解 HDFS 的底层原理。希望通过这篇文章，能够让你对 HDFS 的运行机制有一个清晰、系统的认识。

一、写操作（不支持并发写）

客户端向 NameNode 发起写请求。
NameNode 进行权限校验。若校验通过，则允许上传文件。
客户端将文件切分为 Block（默认每块 128 MB）。
按顺序依次上传 Block（Block1 → Block2 → Block3）。
NameNode 根据副本放置策略选择存储节点：
- 第一份：优先选择与客户端最近的机架中最空闲的节点；
- 第二份：选择不同机架中的空闲节点；
- 第三份：选择第二个机架内的其他空闲节点。
客户端与选定的 3 个 DataNode 建立传输通道。数据以 数据包（Packet） 形式发送：
- Block1 → DataNode1 → DataNode2 → DataNode3
- 写入完成后，DataNode3 依次向上返回“写入成功”信号，最终反馈给客户端。
客户端收到成功响应后继续写入下一个 Block，直到文件全部写入完成。
文件写入结束后，客户端向 NameNode 发送报告，NameNode 在内存中更新文件的元数据信息（文件分块情况、存储位置等）。
DataNode 定期向 NameNode 发送心跳，若发现存在不一致数据，NameNode 会下发删除或复制指令，实现数据容灾。