Hadoop的核心是HDFS和MapReduce.
HDFS是解决海量大数据文件存储问题
是目前应用最广泛的分布式文件系统
目录
HDFS的演变
从谷歌的GFS演变而来。


解决单点故障问题:党存储数据块的服务器中突然有一台及其宕机,我们就无法正常的获取文件,这个问题称为单点故障问题。针对这个问题,可以采用备份机制解决。

NameNode记录着文件有多少个block,每个block存储在那个服务器上,以及它们的副本数为多少
DataNode负责存储block数据块。
HDFS基本概念

hdfs基本框架

Namenode
Datanode


Block数据块(文件切片),逻辑上的概念,默认128MB大小。

机架

存储Block要存在同一个机架上的不同主机。机架感知

元数据:

特点:
优点:高容错
流式数据访问
支持超大文件
高数据吞吐量



缺点:高延迟,
不适合小文件存取,
不适合并发写入
ps:小文件,元数据信息也是一样存。一样占用那么多空间………………会浪费空间啥的
HDFS架构和原理
&nbs

本文详细介绍了HDFS的演变、基本概念、架构和原理,包括Namenode、Datanode、Block数据块以及元数据管理。讲解了HDFS的高容错、流式数据访问等优点,同时探讨了其不适合小文件存取的缺点。通过读写数据流程的解析,阐述了HDFS的文件操作,并提及了HDFS的Shell和API使用。
最低0.47元/天 解锁文章
435

被折叠的 条评论
为什么被折叠?



