Hadoop的核心是HDFS和MapReduce.
HDFS是解决海量大数据文件存储问题
是目前应用最广泛的分布式文件系统
目录
HDFS的演变
从谷歌的GFS演变而来。
解决单点故障问题:党存储数据块的服务器中突然有一台及其宕机,我们就无法正常的获取文件,这个问题称为单点故障问题。针对这个问题,可以采用备份机制解决。
NameNode记录着文件有多少个block,每个block存储在那个服务器上,以及它们的副本数为多少
DataNode负责存储block数据块。
HDFS基本概念
hdfs基本框架
Namenode
Datanode
Block数据块(文件切片),逻辑上的概念,默认128MB大小。
机架
存储Block要存在同一个机架上的不同主机。机架感知
元数据:
特点:
优点:高容错
流式数据访问
支持超大文件
高数据吞吐量
缺点:高延迟,
不适合小文件存取,
&