HDFS读写数据流程

思想在拧紧

于 2021-12-31 22:34:52 发布

阅读量809

点赞数

CC 4.0 BY-SA版权

分类专栏： # hadoop 文章标签： hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/what_how_why2020/article/details/122263195

hadoop 专栏收录该内容

19 篇文章

订阅专栏

本文详细介绍了Hadoop分布式文件系统(HDFS)的读写操作流程，包括客户端如何与NameNode交互获取数据块信息，以及数据块的读取、验证、写入和文件完成过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文简介：HDFS读写数据流程

HDFS读数据流程

HDFS客户端创建DistributedFileSystem对象，执行open()方法请求打开一个文件。
DistributedFileSystem对象向名称节点请求得到文件开始位置的数据块（DataBlock）的位置信息，NameNode返回信息并按存储数据块的DataNode离client远近进行排序。
DistributedFileSystem对象利用DFSInputSystem创建FSDataInputStream对象，客户端通过FSDataInputStream对象请求读取read()数据，找出首个文件数据块所在的DataNode节点并读取数据块。
首个数据块读取完成后，DFSInputStream关闭与该DataNode的连接，并重复调用read()函数，接着读取下一个数据块，直至全部文件块读完为止。
每读取完一个文件块都要进行Checksum验证，一旦从DataNode上读取数据出现了错误，客户端首先告知NameNode，并查找该数据块在集群数据节点上的其它位置信息以继续读取。
当前数据块被正确读取完毕后，关闭当前的DataNode节点链接并寻找下一个待读取的DataNode节点。如果文件读取还没有完成，DFSInputStream会继续从Namenode上读取下一批文件块的位置信息继续读取数据。
客户端将所需要的文件读取完毕后，将调用FSDataInputStream的close()方法关闭所有的数据流读取。

HDFS写数据流程

客户端通过调用DistributedFileSystem类中的create()方法创建文件请求，调用create()方法将创建一个文件输出流对象（FSDataOutputStream）。
FSDataOutputStream对象向远程的名称节点（NameNode）发出RPC调用请求，NameNode节点检查该待写入文件是否存在及客户端的写入权限，检查通过之后，在NameNode上创建一个写入文件的元数据。
客户端通过调用FSDataOutputStream对象的write()方法请求写数据，所要写入的数据先载入到缓冲区中，然后切分成大小相等的数据块（DataBlock）。
每个数据块按照NameNode上的节点分配传输数据块到对应的数据节点（DataNode）上。
数据节点依次反向返回确认信息给第一个数据节点，并将所有的确认信息返回。client收到应答后，将删除队列中的ACK Packet，写入到下一数据节点中。
文件写入完成后，客户端将调用close()方法关闭FSDataOutputStream。
最后，客户端调用complete()方法通知NameNode文件写入成功。

思想在拧紧

博客等级

码龄5年

163
原创

1186
点赞

3197
收藏

525
粉丝

关注

私信

热门文章

分类专栏

机器学习 11篇
数据库 5篇
文本分析 5篇
计算机视觉 1篇
Math 4篇
运筹 5篇
前端 1篇
信息系统 1篇
R 2篇
Linux 5篇
hadoop 19篇
计量经济学 5篇
Python 29篇
Pandas 2篇
人工智能 6篇
后端
Java 4篇
MySql 3篇
JavaWeb 16篇
SpringBoot 1篇
微信小程序 3篇
数据结构与算法 8篇
数学建模 3篇
MATLAB 8篇
其他 6篇
Photoshop 1篇
Office 1篇
IDE 3篇
Github 8篇

展开全部收起

上一篇：: MapReduce工作流理解

下一篇：: WordCount代码详解

最新评论

Tomcat安装及配置
2301_80813255: 还是闪退了，重启之后也还是闪退的，环境配量都没错呀
论文阅读 Popularity prediction for marketer-generated content A text-guided attention neural network ...
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读 Lexicon information in neural sentiment analysis: a multi-task learning approach
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
结构主题模型（一）stm包工作流
hmhwhfd: 您好，请问您有csv的数据吗？现在好像没有了
Tomcat安装及配置
2301_79716762: 以前自己搞了好几久没搞出来，看了佬的指导，一遍过，谢谢佬！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。