HDFS读写流程

最新推荐文章于 2024-11-19 20:46:35 发布

原创最新推荐文章于 2024-11-19 20:46:35 发布 · 804 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#hdfs读写流程

Hadoop 专栏收录该内容

10 篇文章

订阅专栏

本文详细介绍了HDFS的读写流程。写流程包括客户端向NameNode请求、NameNode检查、建立pipeline管道、上传数据、DataNode返回确认信息等步骤；读流程包括客户端请求下载、NameNode返回数据块位置、客户端读取数据等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HDFS写流程

详细步骤：

1.HDFS client会向NameNode发出写文件的请求，通过过RPC与NameNode建立连接。

2.namenode检查是否已经存在该文件、检查权限。若通过检查，namenode返回可以写入的DataNode信息

（注：WAL，write ahead log，先写进Log，再写内存。因为EditLog记录的是最新的HDFS客户端执行所有的写操作，如果后续真实的写操作失败了，由于在此之前，操作就先被写入EditLog中了（EditLog中会存在这些记录），后续的client也会读到相应的数据块，因为DataNode在收到块后会返回确认信息，若没写成功，发送端没收到确认信息，会一直重试，直到成功）

3.客户端通过FSDataOutputStream模块请求datanode上传数据，datanode1收到请求会继续调用datanode2，然后datanode2调用datanode3，将pipeline通信管道建立完成。

4.client获取可以写入datanode位置信息，客户端开始向最近的datanode上传第一个block（先从磁盘读取数据放到一个本地内存缓存）,以Packet为单位。第一个datanode收到block后，会依次传递给下一个DataNode。（DataNode之间的block通过pipeline管道传递）

5.每个DataNode写完一个块后，会向namenode返回确认信息。

6.当客户端结束写入数据，则调用stream的close函数，关闭输出流。

7.ack queue返回成功信息，客户端发送complete信号给NameNode。

HDFS读流程