【HDFS联邦(2)】HDFS Router-based Federation官网解读:HDFSRouterFederation的架构、各组件基本原理

文章探讨了HDFSRouterFederation如何解决NameNode的扩展限制,通过Router组件和StateStore管理namespace分区,实现子集群间的透明访问和数据平衡。还介绍了组件构成、部署流程及quotas管理等内容。

本文主要参考官网:HDFSRouterFederation 对HDFSRouterFederation进行了解:

  1. viewfs会带来的问题,HDFSRouterFederation是如何解决的
  2. HDFSRouterFederation的架构、各组件基本原理说明

一. 介绍

NameNodes have scalability limits because of the metadata overhead comprised of inodes (files and directories) and file blocks, the number of Datanode heartbeats, and the number of HDFS RPC client requests. The common solution is to split the filesystem into smaller subclusters HDFS Federation and provide a federated view ViewFs. The problem is how to maintain the split of the subclusters (e.g., namespace partition), which forces users to connect to multiple subclusters and manage the allocation of folders/files to them.

因为元数据(文件和目录、文件块)的开销、datanode心跳管理以及HDFS RPC请求,namenode有对于datanode的拓展有限制。我们将文件系统分为几个子HDFS联邦系统,然后提供一个联邦的 ViewFs但会出现维护子集群的分裂(例如,namespace分区)的问题,这强制用户连接到多个子集群并管理文件夹/文件的分配。

 

二、HDFS Router-based Federation 架构

我们可以对联邦分区扩展可以添加一个管理namespace联邦的软件层。

架构特性

  • 这个额外层允许用户透明的访问任何子系统,让子集群独立地管理自己的块池,并且将支持子集群之间的数据rebalancing。
  • Router-based Federation下的子集群不需要是独立的HDFS集群,也可以是普通的federation集群(包含多个块池),或者是federation和独立集群的混合集群。
  • 为了实现这些目标,联邦层需要将块访问引导到适当的子集群,维护名称空间的状态,并提供数据再平衡机制。所以这一层必须具有可伸缩性、高可用性和容错性。

 

架构组成

This federation layer comprises multiple components. The Router component that has the same interface as a NameNode, and forwards the client requests to the correct subcluster, based on ground-truth information from a State Store. The State Store combines a remote Mount Table (in the flavor of ViewFs, but shared betw

在京东的大数据平台中,HDFS作为核心组,通过一系列的技术手段确保了数据的高可用性、高可靠性和良好的扩展性。京东采用了自研的JDHDFS来满足其对大数据存储和处理的严苛需求。JDHDFS继承并优化了开源HDFS的特性,特别针对大规模集群管理进行了增强。 参考资源链接:[京东大数据技术:HDFS 分布式存储与优化](https://wenku.youkuaiyun.com/doc/1on74338xr?spm=1055.2569.3001.10343) 首先,在高可用性方面,JDHDFS对Namenode的单点故障问题进行了重点处理。通过引入Router-Based Federation(RBF)架构,JDHDFS通过路由节点实现了命名空间的动态映射和嵌套映射,从而允许集群管理更多的命名空间而不会产生性能瓶颈。此外,JDHDFS通过多个活跃的Namenode构成的集群来实现高可用性,确保在Namenode出现故障时,系统可以迅速切换到备用Namenode上,从而保持数据访问的连续性。 其次,在高可靠性方面,JDHDFS对数据进行了三副本存储。每个数据块的副本在集群中分布存储,即便个别节点发生故障,系统依然可以从其他节点获取数据,保证了数据的可靠性和完整性。同时,JDHDFS还实现了心跳检测和数据校验机制,确保数据不会因为硬故障或网络问题而损坏。 最后,在扩展性方面,RBF架构通过路由节点的引入,使得JDHDFS能够支持PB级别的存储容量和无限制的横向扩展。RBF允许集群在不影响现有业务的情况下动态增加存储容量,提供了灵活的扩展策略,满足了京东业务不断增长的存储需求。 京东通过这些技术和架构的实践,构建了既稳定又可扩展的大数据存储平台,这对其业务的快速发展提供了强大的数据支撑。《京东大数据技术:HDFS 分布式存储与优化》一书详细介绍了这些技术和架构的设计与实现过程,对于希望深入了解京东大数据平台技术细节的读者来说,是一本不可多得的学习资源。 参考资源链接:[京东大数据技术:HDFS 分布式存储与优化](https://wenku.youkuaiyun.com/doc/1on74338xr?spm=1055.2569.3001.10343)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

roman_日积跬步-终至千里

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值