HDFS原理

最新推荐文章于 2025-05-15 08:12:23 发布

前朝那些事

最新推荐文章于 2025-05-15 08:12:23 发布

阅读量342

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop

本文链接：https://blog.youkuaiyun.com/A_____lan/article/details/93846073

Hadoop 专栏收录该内容

10 篇文章

订阅专栏

HDFS是高度容错的分布式文件系统，适用于大规模数据集的应用。系统由NameNode、SecondaryNameNode和Datanode组成。NameNode负责管理文件系统的命名空间和元数据，SecondaryNameNode用于定期合并fsimage和edits，而Datanode则存储实际数据并提供数据块服务。文件上传过程中，NameNode分配空间，Datanode接收数据，最后更新元数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HDFS分布式文件系统介绍

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

HDFS架构

HDFS主要有NameNode，DataNode，Secondary NameNode三个部分

1、NameNode

1.1、NameNode概念
是整个文件系统的管理节点。管理文件系统的命名空间，它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。
解释：文件系统的文件目录树:这个是文件存放在hdfs里面时的目录结构类似于windows下的文件目录结构，我们可以查看 http://192.168.8.88:50070 （自己的IP）查看目录结构
文件/目录的元数据信息：就是记录数据的文件名，目录名等文件目录自身的属性信息，以及目录文件的存储信息，存储块信息（哪几个datanode上面），分块情况（存了几块），副本个数（每块几个副本）等
接收用户的操作请求：记录用户也就是client的增删改操作，这些操作记录在edits文件里面
1.2、NameNode组成：
NameNode维护的主要文件包括：metedata（内存元数据），fsimage（元数据镜像文件），edits（操作日志文件），fstime（保存最近一次checkpoint的时间）
metedata保存在内存中，fsimage和edits保存在linux磁盘中
1.3、NameNode工作特点：
Namenode始终在内存中保存metedata，用于处理“读请求” 到有“写请求”到来时，namenode会首先写editlog到磁盘，即向edits文件中写日志，成功返回后，才会修改内存，并且向客户端返回 Hadoop会维护一个fsimage文件，也就是namenode中metedata的镜像，但是fsimage不会随时与namenode内存中的metedata保持一致，而是每隔一段时间通过合并edits文件来更新内容。Secondary namenode就是用来合并fsimage和edits文件来更新NameNode的metedata的

2、SecondaryNameNode

HA的一个解决方案，HA即高可用性。但不支持热备。配置即可。执行过程：从NameNode上下载元数据信息（fsimage,edits），然后把二者合并，生成新的fsimage，在本地保存，并将其推送到NameNode，替换旧的fsimage.以下方案为hadoop 1以及伪分布式时高可用的解决方案。

namenode secondary
2.1、secondary namenode的工作流程：
1、secondary通知namenode切换edits文件
2、secondary从namenode获得fsimage和edits(通过http) ，同时声称edits.new文件，后面的操作记录在edits.new文件中
3、secondary将fsimage载入内存，然后开始合并edits
4、secondary将新的fsimage发回给namenode
5、namenode用新的fsimage替换旧的fsimage，将edits替换为edits.new文件
2.2、什么时候checkpiont
fs.checkpoint.period 指定两次checkpoint的最大时间间隔，默认3600秒。
fs.checkpoint.size 规定edits文件的最大值，一旦超过这个值则强制checkpoint，不管是否到达最大时间间隔。默认大小是64M。

3、Datanode

提供真实文件数据的存储服务。
文件块（block）：最基本的存储单位。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block。HDFS默认Block大小是128MB，以一个256MB文件，共有256/128=2个Block.
不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间
Replication。多复本。默认是三个。

4、文件上传步骤

上传数据同步过程：
1、客户端和NameNode发起上传文件请求
2、NameNode分配空间
3、向datanode内写入数据
3、NameNode向edits文件写日志记录客户端操作
4、若上传成功，NameNode会在内存元数据metadata内保存一份元数据信息，fsimage镜像文件内不保存
5、当到达checkpiont点时，将edits文件和fsimage文件合并，生成新的fsimage文件替代原来的fsimage文件