hdfs读流程

本文详细解析了Hadoop中客户端读取文件的流程。从客户端调用FileSystem.open方法开始,到与NameNode通信获取Block信息,再到直接与DataNode交互读取数据,最后完成校验并关闭连接。整个过程透明且高效。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

读流程

流程图如下:
在这里插入图片描述

  1. client通过分布式FileSystem.open(path)方法(其实就是传入路径,读的具体文件的路径),去与NN进行RPC通信,NN会校验路径是否存在 权限是否OK。
  2. 校验完成后,返回文件的部分或全部的block列表(其实就是返回FSDataInputStream对象)(假如块的数量比较多,那么可能先返回文件的部分块,等这一部分块读完之后,再继续返回其他的块)
  3. Client调用FSDataInputStream对象的read()方法:
    a. 去与第一个块的最近的datanode进行read(是根据NN返回的地址列表去读的),读取完成后,会校验,假如OK,会关闭与当前的dn的通信。(每个块假如有三个副本,它会读离它最近的那个块的副本,而且只读其中的一个副本)。 假设check fail,会记录失败的块+DN信息,下次就不会读取了,那么会去这个块的第二个DN地址读取(也就是去读取这个块的第二个副本)
    b. 然后读取第二个块的最近的datanode,check后,会关闭与DN的通信
    c. 假设block列表读取完了,文件还没结束,就继续读取下一批次的block的列表。(备注:读的时候先读第一个块,再读第二个块,假如第一个块读的时候失败了,它会记录这个块所在的机器,下次就不会读了)
  4. Client调用FSDataInputStream.close(),关闭输入流。(备注:整个过程是透明的无感知的)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值