-
HDFS架构
-
hdfs执行流程
1)读流程
描述:1.client通过分布式FileSystem.open(path)方法,去与NN进行RPC通信,NN会校验是否存在 权限是否OK。
2.校验完成后,返回文件的部分或全部的block列表(其实就是返回FSDataInputStream对象)
3.Client调用FSDataInputStream对象的read()方法
a.去与第一个块的最近的datanode进行read,读取完成后,会校验,假如OK,会关闭与当前的dn的通信。
假设check fail,会记录失败的块+DN信息,下次就不会读取了,那么会去这个块的第二个DN地址读取
b.然后读取第二个块的最近的datanode,check后,会关闭与DN的通信
c.假设block列表读取完了,文件还没结束,就继续读取下一批次的block的列表
4.Client调用FSDataInputStream.close(),关闭输入流2)写流程
描述:1.Client调filesystem.create(path),
与nn rpc通信,check path是否已经存在及有没有权限创建;
假如OK,就创建一个新文件,但是不关联任何的block,
返回一个FSDataOutputStream对象;
假如不OK,就返回错误信息
2.Client调用FSDataOutputStream对象的write方法,
将第一个块写给DN1,当第一个块写完,DN1复制块到DN2,
当第二个块写完,DN2复制块到DN3,
当第三个块写完,DN3返回一个ack packet确认包给DN2,
当DN2收到DN3的ack,发送一个ack给DN1,
当DN1收到DN2的ack,发送一个ack给FSDataOutputStream对象,标识第一个块3个副本全部写完;
然后余下的块依次这么写!
3.当文件写完成,Client调用FSDataOutputStream对象的close方法,
关闭输出流,flush缓存区的数据包;
4.再调用filesystem.complete方法,告诉NN,我们写完了。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31558266/viewspace-2216343/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/31558266/viewspace-2216343/