HDFS简介

最新推荐文章于 2024-04-29 17:08:37 发布

转载最新推荐文章于 2024-04-29 17:08:37 发布 · 402 阅读

大数据专栏收录该内容

3 篇文章

订阅专栏

最近申请项目写概要设计文档，需要用到大数据，各种找资料总算把文档搞定了。但是，对于大数据仍没有一个清晰的认识，因此找了一份适合初学者理解hadoop体系的文章，精华在前半段：说明了hadoop的来源，设计初衷，组成，每个组成部分的作用。

以下内容转载自：http://www.cnblogs.com/hujingwei/p/5239780.html

Hadoop是当今最为流行的大数据分析和处理工具。

其最先的思想来源于Google的三篇论文：

GFS(Google File System)：是为了解决大数据存储问题的分布式文件系统，演变为hadoop中的HDFS
MapReduce:是为了告诉大家怎么分析大数据，怎么处理大数据。最后演变为hadoop中的MapReduce
BigTable：演变为HBase。

HDFS
普通数据库的存储数量有限，但是大数据一般都是海量数据，而且普通数据库的数据量达到一定程度之后，查询速度会非常慢。
传统数据与大数据的比较，如下：
传统数据大数据
数据量 GB->TB TB->PB以上
速度数据量稳定，增长不快持续实时产生数据，年增长率超过60%
多样化主要为结构化数据半结构化，非结构化，多维数据

价值统计和报表（价值不大）数据挖掘和预测分析

hadoop子项目：
Core:一套分布式文件系统以及支持Map-Reduce的计算框架
HDFS：Hadoop分布式文件系统
Map/Reduce：是一个使用简易的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的方式并行处理T级别的数据集
ZooKeeper:是高可用的和可靠的分布式协同系统
Hive:是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询
HBase:建立于Hadoop Core之上，提供一个可扩展的数据库系统。

HDFS为了做到可靠性，创建了多分数据块的复制，并将他们放置在服务器集群的计算节点中，MapReduce就可以在它们所在的节点上处理这些数据了。

HDFS中的节点NameNode，DataNode：

NameNode：存储元数据，元数据保存在内存中（其实磁盘上也保存了一份），保存文件，block，datanode之间的映射关系。元数据就是除了文件内容之外的数据。（比如，文件名，文件大小等等）

DataNode：存储文件内容，文件内容保存在磁盘，维护block id到datanode本地文件的映射关系。

HDFS数据存储单元（block，其实这是一个逻辑的概念）

文件被切分成固定大小的数据块
-默认数据块大小时64MB，可配置
-若文件大小不到64MB，那么单独存成一个block
-一个文件的存储方式，按大小被切分成若干个block，存储到不同的节点上，默认情况下每个block都有三个副本。
block大小和复本数通过client端上传文件时设置，文件上传成功后副本数可以变更，block size不可变更。
SecondaryNameNode备份了一部分元数据，其主要工作是帮助NN合并edits log，较少NN启动时间

SNN合并的时机

-根据配置文件设置的时间间隔fs.checkpoint.period默认是3600秒

-根据配置文件设置edits log大小fs.checkpoint.size规定edits文件的最大值默认是64MB了，

DataNode

-存储数据
-启动DN线程的时候，会向NN汇报block信息
-通过向NN发送心跳保持联系（3秒一次），如果NN10分钟没有收到DN的心跳，则认为已经lost并copy其上的block到其它DN。
安全模式（当HDFS刚刚启动的时候，会首先进入安全模式，在这个模式下，文件系统是只读的）
-namenode启动的时候，首先将映像文件（fsimage）载入内存，并执行编辑日志（edits）中的各项操作
-一旦在内存中成功建立文件系统元数据的映射，则创建一个新的fsimage文件（这个操作不需要SecondaryNameNode）和一个空的编辑日志。
-此刻nameNode运行在安全模式。即nameNode的文件系统对于客户端来说是只读的。（显示目录，显示文件内容等。写，删除等操作都会失败）。
-在此阶段，NameNode收集各个dataNode的报告，当数据块达到最小复本数以上时，会被认为是安全的，在一定比例（可设置）的数据块被确定为安全之后，再过若干时间，安全模式结束。
-当检测到复本数不足的数据块时，该块会被复制直到达到最小的复本数，系统中数据块的位置并不是由namenode维护的，而是以块列表形式存储在datanode中。