hadoop---HDFS写数据流程

想逆袭的菜小狗

已于 2025-03-19 16:05:14 修改

阅读量435

点赞数 6

文章标签： hadoop

于 2025-03-17 16:45:10 首次发布

本文链接：https://blog.youkuaiyun.com/ahyyyjj/article/details/146310273

版权

在这里插入图片描述

客户端
NameNode
DataNode

★客户端:
打招呼，通知NameNode，要在某个位置存入一个文件

★NameNode:
先检查权限，检查客户端是否有权进行操作
后检查文件，检查是否有所要写入的位置
最后通知客户端，是否可以开始执行操作

客户端上传的内容分块:
客户端将上传的文件内容分成块
要注意，存储的块是一块一块按序存储，不能一起进行
（分块的大小与Hadoop的版本有关）
（1x版本，块的大小为0-64MB）
（2x、3x版本，块的大小为0-128MB）
找储存节点:
客户端资讯NameNode，第一块存储在哪里，NameNode告诉客户端存储在哪几个DataNode
（默认为三个，一个DataNode对应着一个副本）

通道建立:
客户端与三个DataNode之间建立一条道路（例如dn1、dn2、dn3）
像组队一样建立起传输链:
客户端 -> dn1 -> dn2 -> dn3
确保通道的通畅:
客户端依次联系三个DataNode，确保通道的连通

拆小包传输：
客户端把128MB的块拆成更小的数据包（packet）（如一个数据包64KB），再把一个数据包拆成512个字节的小段（chunk）（带检验码，放置传错）
流水线作业：
- 客户端先传给dn1，dn1存下数据后，立刻传给dn2。
- dn2存完再传给dn3。
- 最后dn3存完会逐级回传确认消息（“我存好了！”），最终告诉客户端：“这一包传完了！”
容错机制：
如果某个DataNode挂了（比如dn2宕机），客户端会重新组队（比如用新节点dn4代替dn2），继续传剩下的数据。