-
概念: HDFS是Hadoop Distribute File System 的简称(Hadoop 分布式文件系统), 是hadoop核心组件之一, 作为最底层的分布式存储服务而存在.分布式文件系统解决的问题就是大数据存储问题.
-
设计目标
1. 硬件故障是常态: 故障检测和自动快速回复是HDFS的核心架构目标 2. HDFS主要是以流式读取数据, 更注重数据访问的高吞吐量.被设计成批量的处理 3. HDFS支持大文件 4. HDFS对文件的要求是一次写入多次读取
-
HDFS重要特性
-
首先是一个文件系统, 其次是分布式
-
HDFS采用的是主从架构(master/slave), HDFS集群是有一个 Namenode 和一定数目的 Datanode 组成。Namenode 是 HDFS 集群主节点,Datanode 是 HDFS 集群从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。
-
HDFS中的文件是在物理上分块存储的, 默认块的大小是128M
-
名字空间(NameSpace), Namenode负责维护文件系统的名字空间.
-
目录结构及文件分块位置信息叫做元数据, Namenode负责维护整合HDFS系统的目录树结构以及每一个文件所对应的 block 块信息(block 的id,及所在的 datanode 服务器)。
-
DataNode文件各个block的具体存储管理有DataNode节点承担, 每一个block都可以咋子多个datanode上Datanode 需要定时向 Namenode 汇报自己持有的 block信息。(默认副本数是3
-
HDFS的基础详解
最新推荐文章于 2023-02-19 15:59:04 发布