大数据分享修行宝典-HDFS读写两步教程

最新推荐文章于 2022-03-04 13:42:03 发布

原创最新推荐文章于 2022-03-04 13:42:03 发布 · 234 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #程序员 #编程语言 #hadoop

大数据专栏收录该内容

77 篇文章

订阅专栏

本文详细解析了Hadoop分布式文件系统（HDFS）的读写机制，包括NameNode、DataNode和SecondaryNameNode的角色及工作原理。阐述了客户端如何与NameNode交互，以及数据在DataNode间的传输流程。

部署运行你感兴趣的模型镜像

程序员大数据分享修行宝典-HDFS读写两步教程

大数据分享修行宝典-HDFS读写两步教程

一、HDFS读写之前提

NameNode(元数据节点)：存放元数据（名称空间、副本数、权限、块列表、集群配置信息），不包含数据节点。元数据节点将文件系统元数据存储在内存中。

1.DataNode（数据节点）:真正存储数据的地方，以数据块为单位。默认数据块大小为128M。数据节点周期性的将所有存储块信息发送给元数据节点。客户端通过和NameNode节点沟通后，再向数据节点对数据读出或写入。

2.SecondaryNameNode(从元数据节点)：并不是元数据节点的备用节点，而是配合元数据节点工作，与元数据节点有不同的工作。SecondaryNameNode周期性地将元数据节点的命名空间镜像文件和修改日志合并，帮助元数据节点将内存中元数据信息存储到磁盘上。

3.Client(客户端)：客户端就是需要获取HDFS系统中文件的应用程序和接口，引发HDFS的读/写等操作。

值得注意的是：

1.namenode实际客户端只上传一个datanode,其余两个是namenode完成的。让datenote自己复制的。然后复制完成以后逐级返回结果给namenode。如果2,3datanode复制失败，再有namenode分配新的datanode地址。对于客户端来说默认上传一个datanode就可以了，其余的由datanode自己复制。

2.datanode切片是由客户端完成的。datanode第二三个副本的上传和第一个上传是异步的。

二、HDFS中的写流程：

1.根namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。

2.namenode返回是否可以上传。

3.client请求第一个 block该传输到哪些datanode服务器上。

4.namenode返回3个datanode服务器ABC。

5.client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将真个pipeline建立完成，逐级返回客户端。

6.client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答。

7.当一个block传输完成之后，client再次请求namenode上传第二个block的服务器。

三、hdfs中的读流程：

1.跟namenode通信查询元数据，找到文件块所在的datanode服务器。

2.挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流。

3.datanode开始发送数据。（从磁盘里面读取数据放入流，以packet为单位来做校验）

4.客户端以packet为单位接收，先在本地缓存，然后写入目标文件。

推荐阅读文章

大数据技术盘点

程序员大数据培训分享Shell中数组讲解

大数据教程：SparkShell和IDEA中编写Spark程序

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本