HDFS集群

SAFE20242034

已于 2025-03-31 19:57:42 修改

阅读量552

点赞数 7

分类专栏： # 十五大数据文章标签：运维

于 2025-02-28 09:03:50 首次发布

本文链接：https://blog.youkuaiyun.com/SAFE20242034/article/details/145918995

版权

6 篇文章

订阅专栏

HDFS（Hadoop Distributed File System）是一个高吞吐量的分布式文件系统，设计用于运行在商用硬件上，适合处理大规模数据集。HDFS 是 Hadoop 生态系统的核心组成部分，专门用于大数据存储。

HDFS 集群通常由多个节点组成，包括 NameNode 和 DataNode。以下是 HDFS 集群的基本架构和工作原理：

NameNode（主节点）：
- 功能：NameNode 是 HDFS 的元数据服务器，负责存储文件系统的目录结构、文件到数据块的映射关系、每个数据块的位置等元数据信息。
- 注意：NameNode 不存储实际的文件数据，只存储文件系统的元数据。因为它是 HDFS 中的单点故障（SPOF），所以需要配置高可用性（HA）来避免单点故障。
DataNode（数据节点）：
- 功能：DataNode 存储实际的文件数据（即数据块）。每个 DataNode 存储并管理一个或多个文件块。DataNode 会定期向 NameNode 报告它存储的数据块的信息。
- 数据块：HDFS 会将文件拆分成多个数据块，并将其分布到不同的 DataNode 上，默认每个数据块大小为 128MB 或 256MB。
Secondary NameNode：
- 功能：负责定期合并 NameNode 中的编辑日志（EditLog）和文件系统的元数据（FsImage）。虽然其名字可能让人误解为备份 NameNode，但它的作用主要是定期维护元数据，而不是提供高可用性。
JournalNode（高可用模式下的组件）：
- 功能：在 NameNode 高可用模式下，多个 JournalNode 用于保存 NameNode 的编辑日志（EditLog），并支持故障转移。

文件写入：
- 客户端向 NameNode 请求文件存储的位置（即数据块）。
- NameNode 返回数据块的位置（即哪些 DataNode 会存储数据块）。
- 客户端向 DataNode 发送写入请求，数据被写入到 DataNode 中，并按顺序写入多个副本。
文件读取：
- 客户端向 NameNode 查询文件的元数据，获取文件对应的 DataNode 位置。
- 客户端直接从 DataNode 读取文件数据块。如果某个 DataNode 不可用，客户端会从其他副本读取数据块。
数据副本：
- 默认情况下，HDFS 会为每个数据块创建 3 个副本，以提高数据可靠性和容错性。副本的数量是可以配置的。
- 副本调度：如果某个 DataNode 崩溃或失效，NameNode 会重新安排文件的副本，保证副本数量。

为了避免 NameNode 单点故障，HDFS 可以配置高可用性（HA）。在 HA 配置中，使用两个 NameNode（一个是活动的，另一个是待命的），并通过 JournalNode 共享元数据。

双 NameNode 配置：
- 在 HDFS HA 模式下，系统有两个 NameNode，分别为 Active NameNode 和 Standby NameNode。Active NameNode 负责处理客户端请求，Standby NameNode 则待命，随时可以接管任务。
Zookeeper：
- Zookeeper 用于协调 Active 和 Standby NameNode 的状态转换，当 Active NameNode 失效时，Zookeeper 会将 Standby NameNode 切换为 Active NameNode。

安装与配置：
- HDFS 的配置文件主要包括：
  - hdfs-site.xml：配置与 HDFS 相关的参数，如数据块大小、副本数等。
  - core-site.xml：配置 Hadoop 的核心参数，如文件系统 URI、HDFS 访问端口等。
  - mapred-site.xml：配置 MapReduce 相关参数（如果使用 Hadoop 的 MapReduce）。
命令行工具：
- HDFS 提供了一些命令行工具用于管理集群和操作文件：
  - hdfs dfs -ls /：列出根目录下的文件。
  - hdfs dfs -put localfile /hdfsfile：将本地文件上传到 HDFS。
  - hdfs dfs -get /hdfsfile localfile：将 HDFS 中的文件下载到本地。
  - hdfs dfsadmin -report：查看 HDFS 集群的状态。
集群监控：
- 使用 Hadoop Web UI 可以查看集群状态，包括 NameNode 的健康状况、数据块分布、磁盘使用情况等。
- 通过 namenode、datanode 和 secondary namenode 的日志可以进一步排查问题。

合理配置数据块大小：
- 默认数据块大小为 128MB 或 256MB，可以根据数据集的大小和存储需求调整。如果文件较大，建议增大数据块大小，以减少 NameNode 的负担。
副本管理：
- 根据数据的可靠性需求，可以调整数据块副本数（默认为 3）。如果对数据容错要求不高，可以减少副本数，节省存储空间。
DataNode 内存与磁盘优化：
- 为了提高 HDFS 的性能，可以适当增加 DataNode 的内存，优化磁盘 I/O 性能。
- 将 HDFS 集群部署在性能更高的硬件上（如 SSD）可以显著提高读写性能。
压缩和数据处理：
- 在大规模数据写入和读取过程中，可以使用数据压缩来减少存储空间和 I/O 操作，提升性能。