Hadoop之DataNode工作流程

最新推荐文章于 2024-08-06 13:45:00 发布

绣花针

最新推荐文章于 2024-08-06 13:45:00 发布

阅读量815

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Hadoop

本文链接：https://blog.youkuaiyun.com/mmake1994/article/details/87086367

Hadoop 专栏收录该内容

13 篇文章

订阅专栏

本文深入解析HDFS的数据存储机制，包括Block的默认大小设定、自定义修改方式，以及写入和读取流程。阐述了HDFS如何通过Block进行数据划分，实现文件存储，并详细描述了HDFSClient与NameNode、DataNode之间的交互过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、简介

DataNode提供真实文件数据的存储服务，通过文件块（block最基本的存储单位）来存储。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block。

HDFS默认Block大小是128MB，以一个256MB文件，共有256/128=2个Block；不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间

如果进行数据块的自定义需要修改hdfs-site.xml文件，例如：

    <property>
    <name>dfs.block.size</name>
    <value>128m</value>    --修改为128M
    <description>Block size</description>
    </property>

二、写操作

1.准备工作

首先，HDFS client会去询问NameNoed,看哪些DataNode可以存储Block A，file.txt文件的拆分是在HDFS client中完成的，拆分成了3个Block(A B C).因为NameNode存储着整个文件系统的元数据，它知道哪个DataNode上有空间可以存储这个Block A.

NameNode通过查看它的元数据信息，发现DataNode1、2、7上有空间可以存储Block A,预示将此信息高速HDFS Client.

HDFS Client接到NameNode返回的DataNode列表信息后，它会直接联系第一个DataNode-DataNode 1,让它准备接收Block A--实际上就是建立彼此之间的TCP连接。然后将Block A和NameNode返回的所有关于DataNode的元数据一并传给DataNode1.

在DataNode1与HDFS Client建立好TCP连接后，它会把HDFS Client要写Block A的请求顺序传给DataNode2(在与HDFS Client建立好TCP连接后从HDFS Client获得的DataNode信息)，要求DataNode2也准备好接收Block A(建立DataNode2到DataNode1的TCP连接)。

同上，建立DataNode2到DataNode7的TCP连接

当DataNode7准备好之后，它会通知DataNode2，表示可以开始接收Block A

同理，当DataNode2准备好之后，他会通知DataNode1,表明可以开始接收Block A

当HDFS Client接收到DataNode1的成功反馈信息后，说明这3个DataNode都已经准备好了，HDFS Client就会开始往这三个DataNode写入Block A

2.写流程

在DataNode1 2 7都准备好接收数据后，HDFS Client开始往DataNode1写入Block A数据。同准备工作一样，当DataNode1接受完A数据后，它会顺序将Block A数据传输给DataNode2,然后DataNode2再传输给DataNode7.每个DataNode在接受完Block A 数据后，会发消息给NameNode,告诉他Block数据已经接收完毕，NameNode同时会根据它接收到的小心更新它保存的文件系统元数据信息。当Block A成功写入3个DataNode之后，DataNode1会发送一个成功消息给HDFS Client,同时HDFS Client也会发一个Block A成功写入的信息给NameNode,之后HDFS Client才能开始继续处理下一个Block:Block B

三、读流程

首先，HDFS Client会先去联系NameNode,询问file.txt总共分为几个Block ,而且这些Block分别存放在哪些DataNode上。由于每个Block都会存在几个副本，所以NameNode会把file.txt文件组成的Block对应的所有DataNode列表都返回给HDFS Client.然后HDFS Client会选择DataNode列表里的第一个DataNode去读取对应的Block,比如Block A存储在DataNode 1 2 7,那么HDFS Client会到DataNode1去读取Block A，Block c存储在DataNode7 8 9那么HDFS Client就回到DataNode7去读取Block C