Hadoop集群文件上传及下载过程和hdfs各角色的作用

文件上传

文件上传过程:
  1. 客户端向namenode发送文件上传的请求
  2. namenode进行一系列的检查.权限.文件的父目录是否存在 文件是否同名,检查通过则允许上传
  3. 允许客户端上传
  4. 客户端发送真正的文件上传的请求,请求包含一个重要信息,文件的长度和大小
  5. namenode根据文件的长度计算文件的切块的个数,获取副本的配置信息;返回副本的节点的信息的时候原则: 就近原则 ,客户端所在节点,同机架,不同机架
  6. 客户端准备文件上传
  7. 客户端对文件进行逻辑切块(128M/块)
  8. 开始上传第一个数据块
  9. 构建第一个数据块的上传的通道 pipline (构建通道的时候,客户端启动一个阻塞过程,等待datanode的响应)
  10. 开始上传第一个数据块,先上传到内存中,在到磁盘中(文件上传的过程中,以packet为单位进行传输的,64k为单位进行写入)
  11. 第一个数据块上传成功,关闭当前的pipline
  12. 重复之前几步的操作
  13. 客户端向namenode发送反馈
文件上传过程中遇到的问题
  1. 构建pipline(传输通道)的过程中,某一个节点宕机了,会立即重试一次,还失败,那这个datanode就剔除pipline,重新构建pipline. 至少保证整个pipline中有一个节点存活
  2. 进行文件上传的过程中,只需要保证至少一个副本上传成功就认为整个数据块上传成功,其他副本可以进行集群异步复制
  3. 进行文件上传的过程中,优先第一个副本节点是客户端所在的节点(保证副本最大程度的可以成功上传一个,相当于本地的复制,不需要网路传输)

文件下载

文件下载的过程(hadoop fs -get hdfs local):
  1. 客户端向namenode发送文件下载请求
  2. namenode检察一系列条件,返回需要下载的文件所分的数据块和数据块存储的节点
  3. 客户端开始下载第一个数据块(就近原则) io流
  4. 第一个数据块下载完成,下载第二个数据块…
  5. 所有的数据块下载完成,客户端向namenode发送信息
文件下载过程中的问题
  1. 文件校验问题 以数据块为单位进行数据crc校验
  2. 就近原则下载,如果某一个数据下载失败,重试三次后,namenode会做一个标记,客户端会换一个datanode再次进行下载,知道数据下载成功

元数据合并

重点secondarynamenode

1)snn定期向namenode发送检查,检查namenode的元数据是否需要合并,每1min发送一次;
2)Namenode反馈需要合并了,snn向namenode发送合并元数据的请求;
3)Namenode将正在编辑的日志文件进行回滚,同时生成一个全新的正在编辑的日志文件
4)Snn将需要合并的edits文件和fsimage文件拉取到自己的本地,将edits文件和fsimage文件进行合并,在内存中,根据edits文件的日志修改fsimage文件;
5)Snn将合并好的fsimage文件发送给namenode,自己本地也保存一份;
6)Namenode将最新的fsimage文件进行重命名覆盖掉原来的fsimage文件


hdfs各角色的作用

---- namenode

  • 接受客户端的读写请
  • 管理元数据信息
  • 接受datanode的心跳信息
  • 负载均衡
  • 负载数据块副本的存储节点的分配

---- datanode

  • 处理客户端的读写请求
  • 存储数据库信息
  • 向namenode发送心跳报告
  • 进行副本的复制

---- secondarynamenode

  • 帮助namenode备份元数据信息
  • 帮助namenode进行元数据合并

---- client(客户端)

  • 发送读写请求
  • 对上传的文件进行逻辑切块和物理切块
  • 向namenode反馈下载和上传数据的信息
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值