5.4 构建HDFS
Hadoop 附带了一个分布式文件系统(Hadoop Distributed File System,以下简称HDFS),基于 Hadoop 的应用程序使用 HDFS 。HDFS 是专为存储超大数据文件,运行在集群的商品硬件上。它是容错的,可伸缩的,并且非常易于扩展。
当数据超过一个单个物理机器上存储的容量,除以跨独立机器数。管理跨越机器的网络存储特定操作被称为分布式文件系统。
HDFS集群主要由 NameNode 管理文件系统 Metadata 和 DataNodes 存储的实际数据。
1.NameNode: NameNode可以被认为是系统的主站。它维护所有系统中存在的文件和目录的文件系统树和元数据 。 两个文件:“命名空间映像“和”编辑日志“是用来存储元数据信息。Namenode 有所有包含数据块为一个给定的文件中的数据节点的知识,但是不存储块的位置持续。从数据节点在系统每次启动时信息重构一次。
2.DataNode : DataNodes作为从机,每台机器位于一个集群中,并提供实际的存储. 它负责为客户读写请求服务。
HDFS中的读/写操作运行在块级。HDFS数据文件被分成块大小的块,这是作为独立的单元存储。默认块大小为64 MB。
HDFS操作上是数据复制的概念,其中在数据块的多个副本被创建,分布在整个节点的群集以使在节点故障的情况下数据的高可用性。
注: 在HDFS的文件,比单个块小,不占用块的全部存储。
更多详情请参考HDFS官方说明
5.4.1 初始化hdfs
5.4.2 查看master节点启动状态
5.4.3 查看各个节点启动状态
快速链接
上一篇 | 汇总目录 | 下一篇 |
---|---|---|
5.3.3 使用ssh传输文件 | 云计算数据平台-hadoop集群 | 5.4.1 初始化hdfs |