目录
HDFS解决的是海量存储的问题
设计目标:
-
故障是常态,因此故障的检测和自动快速恢复是核心
-
适合批量处理,注重数据访问的高吞吐量。一旦写入不需要修改
-
支持大文件
-
文件一旦创建、写入、关闭之后就不需要修改
-
移动计算的代价比移动数据的代价低
-
可移植性强。其他软件平台或异构硬件
特性:
-
NameNode负责管理整个文件系统元数据;DataNode负责管理具体文件数据块存储;Secondary NameNode协助NameNode进行元数据的备份。
-
HDFS即是一个文件系统又是分布式。
-
-
主从架构(一个namenode和多个datanode),Namenode是HDFS集群主节点,Datanode是HDFS集群从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。
-
文件是以128M块(block)存储,以64K的数据包传送。hadoop 1.X是64M
-
我们把目录结构及文件分块位置信息叫做元数据。元数据是关于数据的信息,包括文件名、文件大小、文件权限等。Namenode通过创建元数据本地存储目录和一些初始化的元数据相关文件来管理和维护这些信息。
-
datanode需要定时向namenode汇报自己的block信息时间间隔默认为6小时,会定期发送心跳,默认为3秒。
-
副本数量也可以通过参数设置dfs.replication,默认是3。
-
namenode是集群的单点故障,坏了就不可运行