HDFS介绍

最新推荐文章于 2024-08-13 17:25:44 发布

潘书鹏的BigData

最新推荐文章于 2024-08-13 17:25:44 发布

阅读量6.2k

点赞数 11

分类专栏：大数据 HDFS

本文链接：https://blog.youkuaiyun.com/weixin_45749011/article/details/102904845

版权

大数据同时被 2 个专栏收录

23 篇文章

订阅专栏

HDFS

3 篇文章

订阅专栏

文章目录

1. HDFS 副本存放机制
2. HDFS数据写入流程
3. HDFS数据读取流程
4. HDFS数据完整性
5. HDFS适用场景
6. HDFS特性
7. HDFS缺点
8. HDFS高级命令
9. HDFS安全模式
10. Fsimage Edits
11. 查看Fsimage Edits
12. SecondaryNamenode工作原理
13. 什么时候进行文件拷贝合并

1. HDFS 副本存放机制

第一份数据来源于客户端
第二份存放的位置是与第一个副本在相同机架上，且不在同一个节点，按照一定的规则（cpu 内存 IO是用率，和硬盘剩余容量）找到一个节点存放
第三份副本的存放位置是与第一第二份数据副本不在同一个机架上，且逻辑与存放副本一和二的机架距离最近的机上，按照一定的规则（cpu 内存 IO是用率，和硬盘剩余容量）找到一个节点进行存放
在这里插入图片描述

2. HDFS数据写入流程

在这里插入图片描述

client发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；
client请求第一个block该传输到哪些DataNode服务器上；
NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的DataNode的地址如：
A，B，C；
client请求3台DataNode中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将整个pipeline建立完成，后逐级返回client；
client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位（默认64K），A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答。
数据被分割成一个个packet数据包在pipeline上依次传输，在pipeline反方向上，逐个发送ack（命令正确应答），最终由pipeline中第一个DataNode节点A将pipelineack发送给client;
关闭写入流。
当一个block传输完成之后，client再次请求NameNode上传第二个block到服务器。

3. HDFS数据读取流程

在这里插入图片描述

客户端通过调用FileSystem对象的open()来读取希望打开的文件。
Client向NameNode发起RPC请求，来确定请求文件block所在的位置；
NameNode会视情况返回文件的部分或者全部block列表，对于每个block，NameNode 都会返回含有该 block副本的 DataNode 地址；这些返回的 DN 地址，会按照集群拓扑结构得出 DataNode 与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构中距离 Client 近的排靠前；心跳机制中超时汇报的 DN 状态为 STALE，这样的排靠后；
Client 选取排序靠前的 DataNode 来读取 block，如果客户端本身就是DataNode,那么将从本地直接获取数据(短路读取特性)；
底层上本质是建立 Socket Stream（FSDataInputStream），重复的调用父类 DataInputStream 的 read 方法，直到这个块上的数据读取完毕；
并行读取，若失败重新读取
当读完列表的 block 后，若文件读取还没有结束，客户端会继续向NameNode 获取下一批的 block 列表；
返回后续block列表
最终关闭读流，并将读取来所有的 block 会合并成一个完整的最终文件。

4. HDFS数据完整性

在这里插入图片描述

数据在写入之后进行校验和的计算，DataNode周期性进行校验和计算，将计算结果与第一次的结果进行对比。若相同表示无数据丢失，若不相同表示数据有丢失，丢失进行数据恢复。
数据读取之前对数据进行校验，与第一次的结果进行对比。若相同表示数据没有丢失，可以读取。若不相同表示数据有所丢失。到其他副本读取。

5. HDFS适用场景

一次写入，多次读出的场景。支持数据在文件尾追加。不支持在文件中间追加或修改。

6. HDFS特性

海量数据存储： HDFS可横向扩展，其存储的文件可以支持PB级别数据。
高容错性：节点丢失，系统依然可用，数据保存多个副本，副本丢失后自动恢复。可构建在廉价（与小型机大型机比）的机器上，实现线性扩展(随着节点数量的增加，集群的存储能力，计算能力随之增加)。
大文件存储：DFS采用数据块的方式存储数据，将一个大文件切分成多个小文件，分布存储。

7. HDFS缺点

不能做到低延迟数据访问： HDFS 针对一次性读取大量数据继续了优化，牺牲了延迟性。
不适合大量的小文件存储：
A:由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存容量。

B:每个文件、目录和数据块的存储信息大约占150字节。由于以上两个原因，所以导致HDFS不适合大量的小文件存储
文件的修改；不适合多次写入，一次读取（少量读取）
不支持多用户的并行写。

8. HDFS高级命令

HDFS上的某一个特定的目录存储的数据副本、数据量、文件的个数进行设置。
设置目录可以存储的文件的数量 hdfs dfsadmin -setQuota 100 lisi （文件夹本身算一个）
清空文件夹内数据良方的限制 hdfs dfsadmin -clrQuota /user/root/lisi
限制文件夹下存储的数据量 hdfs dfsadmin -setSpaceQuota 100M /user/root/lisi
清空文件夹数量的限制 hdfs dfsadmin -clrSpaceQuota /user/root/lisi
查看文件夹的限额数 hdfs dfs -count -q -h /user/root/lisi

9. HDFS安全模式

安全模式是HDFS所处的一种特殊状态，在这种状态下，文件系统只接受读数据请求，而不接受删除、修改等变更请求。
HDFS什么时候进入安全模式：在NameNode主节点启动时,HDFS首先进入安全模式
在安全模式下做了什么： DataNode在启动的时候会向namenode汇报可用的block等状态

查看hdfs在什么模式 hdfs dfsadmin -safemode get

    进入hdfs安全模式 hdfs dfsadmin -safemode enter
    
    退出hdfs安全模式 hdfs dfsadmin -safemode leave

10. Fsimage Edits

Fsimage 记录HDFS文件系统的镜像或快照（周期性记录）（此文件相对较小）
Edits 记录客户端对进行的所有的增、删、改、追加等操作（没有使用Secondary NameNode之前，不是周期性生成）（此文件相对较大）
Fsimage Edits作用：用于还原集群上次关闭时的状态。还原时将两个文件加载到内存，检查、合并最终生成一个新的Fsimage 。原本的Edits失效。

11. 查看Fsimage Edits

在配置文件hdfs-site.xml中记录了两个文件的存放位置。

dfs.namenode.name.dir Fsimage 的存放路径
dfs.namenode.edits.dir edits日志存放的路径

将Fsimage转换成xml

  hdfs oiv -i fsimage_0000000000000024681 -p XML -o test001.xml

将 Edits转换成xml

  hdfs oev -i edits_0000000000000000523-0000000000000024565 -p XML -o test002.xml

12. SecondaryNamenode工作原理

前提：不使用SNN,日志文件会很大，日志大会导致集群恢复到上次关机前的状态花费很长时间，这个时候集群处于安全模式，集群不可用。长时间处于安全模式。
目标：加快集群二次启动的速度。（减少集群二次启动的时间）
SecondaryNamenode周期性复制NameNode的FSIMAGE 和edits到本机（SecondaryNamenode本机），将两个文件进行合并，最终生成全新的Fsimage,将最新的Fsimage发送回Namenode 。
意义：辅助NameNode合并Fsimage Edits.减小了日志的大小，加快了集群的二次启动速度。
在这里插入图片描述
SecondaryNamenode自己独立部署在有一个节点上。此节点的配置要与NameNode相同。