文件写入HDFS
1、整体过程:
客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件分割为若干个block,传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本
2、详细步骤:
1、client向namenode通信请求上传文件,namenode检查目标文件是否已存在,父目录是否存在
2、namenode返回是否可以上传
3、client会先对文件进行切分,比如设置一个block块128M,文件有300M就会被切分成3个块,一个128M、一个128M、一个44M,然后client向namenode请求第一个 block该传输到哪些datanode服务器上
4、namenode返回datanode服务器的地址
5、client请求datanode上传数据(本质上是一个RPC调用,建立pipeline管线),第一个datanode收到请求会继续调用第二个datanode,然后第二个调用第三个datanode,将整个pipeline建立完成,逐级应答客户端(此处副本设置为3)
6、client开始往第一个datanode上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位(一个packet为64kb)