Hadoop学习之HDFS架构(一)

本文介绍了Hadoop分布式文件系统(HDFS)的发展背景、设计目标及核心架构。HDFS以高容错性、流数据访问和大数据集处理为特点,采用主从结构,包括NameNode和DataNode。NameNode管理文件系统命名空间,DataNode负责存储数据并执行块的创建、删除和复制。HDFS文件系统命名空间支持层次目录结构,但目前不支持硬链接和软链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

HDFS的全称是Hadoop Distributed File System(Hadoop分布式文件系统),是受到Google的GFS(Google文件系统)启发而设计开发出来的运行在商用主机上的分布式文件系统。最初HDFS是作为Nutch网络搜索引擎项目的基础结构发展的(在Nutch2.x版本以前,搜索到的数据存储在HDFS上,2.x版本中可以将数据存储在诸如HBase等NoSQL中),现在是Hadoop的子项目。HDFS和现在使用中的分布式文件系统有很多相似之处,但也有显著的不同之处。HDFS具有很高的容错性,被设计运行在低成本的硬件之上,提供访问应用程序数据的高吞吐量,适用于拥有大数据集的应用程序。HDFS放宽了一些POSIX要求以增强对文件系统数据的流访问。

在了解了HDFS是如何发展起来之后,现在看看设计HDFS时的设想或者想要实现怎样的目标呢。

  • 硬件故障。硬件故障属于正常现象而不是异常,也就是说硬件故障是在物理硬件在持续工作了若干时间后出现的自然问题并非出自人为的或者设计上的问题,也是在所难免的。HDFS实例可能由成百上千台服务器组成,每台存储了部分文件系统数据。实际情况中HDFS拥有巨大数量的组成部分,并且每个部分都有小概率的可能性发生故障,这就意味着在HDFS中有些部分总是不能正常工作的。因此,检查错误并且快速、自动地恢复这些部分就是HDFS的核心架构目标。
  • 流数据访问。运行在HDFS上的应用程序需要以流方式读取它们的数据集,这些应用程序不是典型地运行在通用文件系统上的通用应
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

文宇肃然

精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值