HDFS基本原理和设计理念

HDFS为解决传统文件系统在大数据存储上的局限,采用分块多副本存储,提高文件可靠性与并发访问能力。通过NameNode管理元数据,DataNode存储数据块,确保高容错性。适合大规模批处理但实时性差,不适宜小文件和频繁修改操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本节将对 HDFS 的基本原理进行讲解。

文件系统的问题

文件系统是操作系统提供的磁盘空间管理服务,该服务只需要用户指定文件的存储位置及文件读取路径,而不需要用户了解文件在磁盘上是如何存放的。

但是当文件所需空间大于本机磁盘空间时,应该如何处理呢?

  • 加磁盘,但是加到一定程度就有限制了。
  • 加机器,即用远程共享目录的方式提供网络化的存储,这种方式可以理解为分布式文件系统的雏形,它可以把不同文件放入不同的机器中,而且空间不足时可继续加机器,突破了存储空间的限制。

但是这种传动的分布式文件系统存在多个问题。

1)各个存储结点的负载不均衡,单机负载可能极高。例如,如果某个文件是热门文件,则会有很多用户经常读取这个文件,这就会造成该文件所在机器的访问压力极高。

2)数据可靠性低。如果某个文件所在的机器出现故障,那么这个文件就不能访问了,甚至会造成数据的丢失。

3)文件管理困难。如果想把一些文件的存储位置进行调整,就需要查看目标机器的空间是否够用,并且需要管理员维护文件位置,在机器非常多的情况下,这种操作就极为复杂。

HDFS 的基本思想

HDFS 是个抽象层,底层依赖很多独立的服务器,对外提供统一的文件管理功能。HDFS 的基本架构如图 1 所示。

HDFS的基本架构
图 1  HDFS的基本架构

例如,用户访问 HDFS 中的 /a/b/c.mpg 这个文件时,HDFS 负责从底层的相应服务器中读取该文件,然后返回给用户,这样用户就只需和 HDFS 打交道,而不用关心这个文件是如何存储的。

为了解决存储结点负载不均衡的问题,HDFS 首先把一个文件分割成多个块,然后再把这些文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值