HDFS读数据流程

高个子男孩

于 2023-03-07 23:42:18 发布

阅读量416

点赞数

分类专栏： Hadoop 文章标签： hdfs hadoop java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41982570/article/details/129259597

版权

Hadoop 专栏收录该内容

12 篇文章

订阅专栏

客户端通过RPC向NameNode请求文件下载，NameNode返回文件块在DataNode的位置。客户端选择最近的DataNode读取数据，DataNode以Packet为单位传输并校验。客户端接收并缓存数据，按需向NameNode请求更多block，同时进行checksum验证确保数据完整性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。

2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。

3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。

4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

另一版本

1、 Client 向 NameNode 发起 RPC 请求，来确定请求文件 block 所在的位置；

2、 NameNode会视情况返回文件的部分或者全部block列表，对于每个block，

NameNode 都会返回含有该 block 副本的 DataNode 地址；

3、这些返回的 DN 地址，会按照集群拓扑结构得出 DataNode 与客户端的距

离，然后进行排序，排序两个规则：网络拓扑结构中距离 Client 近的排靠前；心跳机制中超时汇报的 DN 状态为 STALE，这样的排靠后；

4、 Client 选取排序靠前的 DataNode 来读取 block，如果客户端本身就是

DataNode,那么将从本地直接获取数据；

5、底层上本质是建立 Socket Stream（FSDataInputStream），重复的调用

父类 DataInputStream 的 read 方法，直到这个块上的数据读取完毕；

6、当读完列表的 block 后，若文件读取还没有结束，客户端会继续向NameNode 获取下一批的 block 列表；

7、读取完一个 block 都会进行 checksum 验证，如果读取 DataNode 时出现

错误，客户端会通知 NameNode，然后再从下一个拥有该 block 副本的DataNode 继续读。

8、 read 方法是并行的读取 block 信息，不是一块一块的读取；NameNode 只

是返回Client请求包含块的DataNode地址，并不是返回请求块的数据；

9、最终读取来所有的 block 会合并成一个完整的最终文件。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。