（一）HDFS总体架构

最新推荐文章于 2024-05-23 05:00:00 发布

秦时盖聂

最新推荐文章于 2024-05-23 05:00:00 发布

阅读量421

点赞数

分类专栏： hadoop

本文链接：https://blog.youkuaiyun.com/qinshi965273101/article/details/82961345

版权

11 篇文章

订阅专栏

海量的非结构化数据，几乎没法梳理成一个个的字段，来存储在关系型数据库中。所以实际应用中，对于这类数据需要考虑数据如何存储。数据如何计算的问题。

hadoop有第一代和第二代，第二代与第一代最显著的特点是：第二代比第一代多了一个资源调度框架（yarn）。

hadoop第二代上可以跑多种计算框架，例如spark，MapReduce等。

目前3.0版本已经发布。

如图：

分布式存储数据：一个文件拆分成了四块，分别保存在机架1中的四台服务器中（datanode）
引入namenode：若要获取文件，需要知道该文件拆成哪些块，分别保存在哪等。namenode就是专门管理文件块信息。
避免namenode单点故障：有一个SecondaryNameNode服务作为namenode的备用。
引入副本冗余机制：此处采用三副本机制（磁盘利用率1/3），以黄色块为例，在机架1的第四台服务器上保本一个副本，在机架2的第一台服务器上保存了一个副本，以防机架1全部宕机。

namenode作用：

namenode数据在内存中，供客户端快速查询。为防数据丢失，也会在磁盘保存镜像文件。
管理整个分布式文件系统的元数据信息，一个文件多大，有几块，每个块多大，分别存储在那些节点等。
管理整个集群的状态，比如所有datanode时间间隔会向namenode发起一个心跳包，namenode时间间隔内没有收到心跳包，则判定为该datanode宕机。

1.0版本namenode单点故障解决方案：