一、hdfs写数据流程
(1)客户端向namenode发出写数据请求,namenode会对用户写权限+写入目录树路径是否存在两者进行校验,校验通过则响应可以上传文件;
(2)客户端请求上传第一个block文件块(128M),请求namenode返回写入的datanode
(3)假设是三副本机制,则namenode会返回dn1、dn2、dn3三个节点,表示可以采用这三个节点存储数据(namenode选取datanode时综合考虑距离最近和负载均衡)
(4)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,依次dn2调用dn3,三者之间建立Block传输通道完成
(5) dn1、dn2、dn3逐级应答客户端
(6)客户端开始往dn1上传第一个Block,上传时先将数据从磁盘读取放到一个本地内存缓存,以Packet为单位上传至dn1,dn1收到一个packet后沿着通信管道逐级传递至dn2、dn3;dn1每传一个packet会放入一个应答队列等待应答
(7)当一个block传输完成后,客户端再次请求namenode上传block2,重复步骤2-6
二、hdfs读数据流程
(1)客户端向namenode发送请求,namenode校验权限和路径通过后,查询目标文件的元数据,返回其所在的datanode地址
(2)客户端通过FSDataInputStream模块,并综合考虑就近原则和负载均衡,选择一个datanode节点,请求读取数据
(3) datanode传输数据给客户端,并以packet为单位进行校验
(4) 客户端以packet为单位接收,先在本地进行缓存,然后写入目标文件
(5)注意当一个文件在存储的时候不止一个block, 那么在读取的时候时串行读,即读完block1后再读取block2,保证顺序