Hadoop笔记4--hdfs架构

本文探讨了Hadoop 1.x HDFS存在的问题,包括耦合性高、单点故障等,并介绍了Hadoop 2.x HDFS的改进措施,如引入存储块池和集群ID的概念,有效提升系统的性能和隔离性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、Hadoop1.x的hdfs存在问题:

      1)namespace与block storage耦合严重。

      2)namenode存在单点故障,namespace存放在单个namenode,namenode存放着集群上所有的元数据。

      3)性能受限,单个namenode最多只支持60k个task,hadoop2.x能支持到100k个task。

     4)隔离性差,来自不同group的不同用户提交作业。单个namenode难以提供隔离性,即:某个用户提交的负载很大的job会减慢其他用户的job,单一的namenode难以像HBase按照应用类别将不同作业分派到不同namenode上。



2、hadoop2.x的Hdfs。

引入两个概念:存储块池(block pool)和集群ID(clusterID)。一个block pool是块的集合,属于一个单一的namespace,DataNode存储着集群中所有Block Pool中的块。

特点:1)一个HDFS集群的Namespace在单一的NN中实现,一个单一的storage-pool由所有的DN是组成。DNs不会进行分区,DN能够给所有的NN提供Storage,整个Storage包含多个独立的blk-pools,每个blk-pools由单一的NN管理。

2)多个独立的HDFS Namespace独自实现在各个分离的NN中。

3)一个blkk-pool是一个独立的blks集合,属于单一的namespace,一个blk-pool在管理上和其他的pools是独立的,不需要与其他pools进行协调。

4)DN提供共享的Storage层,存储属于所有blk-pools的blks。DN管理blk的归属。

5)每个DN和NN的blk管理层通信,如下(1)注册及定期发送Hearbeat(2)为每个blk-pool发送BRs(3)接受NN对blk的管理命名(copy,delete,etc)。




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值