第五部分：HDFS分布式文件系统_分布式五部分-优快云博客

本文链接：https://blog.youkuaiyun.com/helloworld999999/article/details/119887750

本文深入探讨了Hadoop的分布式文件系统HDFS，涵盖HDFS的重要概念如NameNode、DataNode、Block机制，元数据管理，客户端操作（Shell与JAVA API），读写流程，以及NN故障处理和安全模式。此外，还讨论了HDFS的限额配置、归档技术及其在大数据分析中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：上一章节大致介绍了一下hadoop框架的三个重要组成部分，从这一章节开始一次详细介绍。

一、HDFS简介

是hadoop核心组成，分布式存储服务。

分布式文件系统横跨多台计算机，在大数据时代有着广泛的应用前景，它们为存储和处理超大规模数据提供所需的扩展能力。

HDFS是分布式文件系统中的一种。

二、HDFS重要概念

HDFS通过通过统一的命名空间目录树来定位文件。另外，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器由各自的角色（分布式的本质是拆分，各司其职）。

典型的Master/Slave架构：
                HDFS 的架构是典型的 Master/Slave 结构。
                HDFS集群往往是一个NameNode（HA架构会有两个NameNode,联邦机制）+多个DataNode组成；
                NameNode是集群的主节点，DataNode是集群的从节点。

分块存储（block机制）：
HDFS中的文件物理上是分块（block）存储的，块的大小可以通过参数配置。
hadoop2.x版本中块的大小默认是128M。

命名空间（namespace）：
                HDFS 支持传统的层次型文件组织结构。
                Namenode 负责维护文件系统的名字空间，任何对文件系统名字空间或属性的修改都将被Namenode 记录下来。
                HDFS提供给客户单一个抽象目录树，访问形式：hdfs://namenode的hostname:port/test/input
                hdfs://linux121:9000/test/input

NameNode元数据管理：
把目录结构及文件分块位置信息叫做元数据。
NameNode的元数据记录着每一个文件所对应的block信息（block的id，以及block所在DataNode节点的信息）。

DataNode数据存储：
文件的各个block的具体存储管理由DataNode节点承担。一个block会有多个DataNode存储，DataNode会定期向NameNode汇报自己持有的block信息。

副本机制：
为了容错，文件的每个block都会有副本。每个文件的block大小和副本系数都是可以配置的。副本系数可以在创建的时候指定，也可以在之后改变。默认是3个。

一次写入，多次读出：
HDFS是设计成适合一次写入，多次读出的场景。且不支持文件的随机修改。（支持追加写入，不支持随机更新）
正因如此，HDFS适合做大数据分析的底层存储服务，并不适合用来做网盘等服务（原因是修改不方便，延迟大、网络开销大、成本太高）。

三、HDFS框架

我觉得这部分叙述已经在上面重复过N+次了。。。

        NameNode(nn):Hdfs集群的管理者，Master
                维护管理Hdfs的名称空间（NameSpace）
                维护副本策略
                记录文件块（Block）的映射信息
                负责处理客户端读写请求

        DataNode:NameNode下达命令，DataNode执行实际操作，Slave节点。
                保存实际的数据块
                负责数据块的读写

        Client:客户端
                上传文件到HDFS的时候，Client负责将文件切分成Block,然后进行上传
                请求NameNode交互，获取文件的位置信息
                读取或写入文件，与DataNode交互
                Client可以使用一些命令来管理HDFS或者访问HDFS