简介
作为Hadoop生态中核心的组件,HDFS在Hadoop项目最初就已经存在。HDFS始于 Google 在2003年10月份发表的GFS(Google File System)论文。 它其实就是 GFS 的一个克隆版本。但是经过这些年的发展,HDFS的架构和功能基本固化,并成为一个完善的核心组件。
在如下HDFS的官网中,有对HDFS的详细描述,针对我装的版本(Hadoop 2.7.7):
- HDFS Architecture:
http://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
- HDFS User Guide:
http://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html
HDFS的概念
HDFS (Hadoop Distributed File System)是分布式文件系统。其为海量的数据提供了存储,它是分布式计算中数据存储管理的基础,为海量日志类大文件的在线存储提供便利。
HDFS是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的大型服务器集群上。因此,在设计上HDFS把硬件故障作为一种常态来考虑,可以保证在部分硬件发生故障的情况下仍然能够保证文件系统的整体可用性和可靠性。
HDFS提供一次写入、多次读取的机制,数据以块的形式,同时分布存储在不同的物理机器上。在Hadoop 2中,HDFS默认的块大小为128M,HDFS中的文件被分成块存储在若干台DataNode服务器上。
HDFS的特点
HDFS的概念决定了其有如下几个假设与特点:
在HDFS的设计中,硬件故障是常见的,而非特例。所以&#x