Hadoop系列（一）——身体是革命的本钱 HDFS体系结构（NameNode、DataNode）详解

最新推荐文章于 2024-04-29 18:19:35 发布

原创

最新推荐文章于 2024-04-29 18:19:35 发布 · 8.1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #hadoop #hdfs #namenode #datanode

HDFS体系结构

HDFS简介
- 传统分布式文件系统
- hadoop HDFS分布式文件系统
HDFS 体系结构
数据流读写实例
- 写sky.avi文件操作
- 读sky.avi文件操作

HDFS简介

以往的企业需要处理的数据往往是企业内部员工相关的数据，受限于员工数量的相对广大全民用户比较少，往往单机就能管理和储存这些数据；而在现代的企业环境中，随着互联网的普及，广大全民用户涌入，自然而然的为企业涌入了海量的数据，单机容量往往无法存储大量数据，需要跨机器存储。以统一管理分布在集群上的文件系统称为分布式文件系统就此应运而生；而当分布式文件系统与网络互通时最大的难点就是如果保证在节点不可用的时候数据不丢失。分布式文件系统的发展有以下两大阶段：

传统分布式文件系统

如下图所示：传统的网络文件系统（NFS）虽然也称为分布式文件系统，但是其存在一些限制。由于NFS中，文件是存储在单机上，因此无法提供可靠性保证，当很多客户端同时访问NFS Server时，很容易造成服务器压力，造成性能瓶颈。另外如果要对NFS中的文件中进行操作，需要首先同步到本地，这些修改在同步到服务端之前，其他客户端是不可见的。某种程度上，NFS不是一种典型的分布式系统，虽然它的文件的确放在远端（单一）的服务器上面。

在这里插入图片描述
严格意义上来说。传统分布式文件系统管理上还是单机模式，只不过解决了储存上的难点。其依然受限于主机计算节点和管理CPU的性能，处理的数据量依然还是少量的。

hadoop HDFS分布式文件系统

HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。

HDFS简化了文件的一致性模型，通过部署在datanode上的分布式文件系统以流式数据访问模式来存储超大文件，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。此外它提供了一次写入多次读取的机制，数据以块的形式，同时分布在集群不同物理机器上。简单的来说将数据的存储和管理分布在各个集群节点上，降低以往单机模式性能对数据处理的影响，同时还能降低集群成本。

HDFS特点：

数据冗余，硬件容错
流式的数据存储；不适合低延时的数据访问
存储大文件；不适合大量小文件
适合数据批量读写，吞吐量高；不适合交互式应用，低延迟很难满足
适合一次写入多次读取，顺序读写；不支持多用户并发写相同文件

HDFS 体系结构

HDFS体系结构图如下：

在这里插入图片描述
hadoop 的HDFS体系结构主要有Blocks、NameNode和DataNode组成。

blocks

物理磁盘中有块的概念，磁盘的物理Block是磁盘操作最小的单元，读写操作均以Block为最小单元，一般为512 Byte。HDFS这类分布式文件体系同样也有块的概念，它的底层正好封装了底层的block块。

HDFS的blocks：

HDFS上的文件被划分为块大小的多个分块，作为独立的存储单元，称为数据块，2.7.3版本开始，默认block size由64MB变成了128 MB。

比如说一个300MB的文件会被拆分为2个128MB和1个44MB的文件储存在HDFS上。当一个文件很小的时候，也会以128MB的形式存储，不过它实际占用的空间还是实际大小的容量，而不是128MB，只不过是以128MB的形式去存储。当然这样没有意义，因为hadoop 是为大数据而生的，少量的数据根本不适合，也不会选择hadoop 生态圈。

HDFS的Blocks为什么这么大？