Hadoop学习之HDFS架构(一)

最新推荐文章于 2021-08-28 18:25:29 发布

文宇肃然

最新推荐文章于 2021-08-28 18:25:29 发布

阅读量758

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop分布式计算解决方案集锦

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/25237469

hadoop分布式计算解决方案集锦专栏收录该内容

85 篇文章 ¥19.90 ¥99.00

订阅专栏

本文介绍了Hadoop分布式文件系统（HDFS）的发展背景、设计目标及核心架构。HDFS以高容错性、流数据访问和大数据集处理为特点，采用主从结构，包括NameNode和DataNode。NameNode管理文件系统命名空间，DataNode负责存储数据并执行块的创建、删除和复制。HDFS文件系统命名空间支持层次目录结构，但目前不支持硬链接和软链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HDFS的全称是Hadoop Distributed File System(Hadoop分布式文件系统)，是受到Google的GFS(Google文件系统)启发而设计开发出来的运行在商用主机上的分布式文件系统。最初HDFS是作为Nutch网络搜索引擎项目的基础结构发展的(在Nutch2.x版本以前，搜索到的数据存储在HDFS上，2.x版本中可以将数据存储在诸如HBase等NoSQL中)，现在是Hadoop的子项目。HDFS和现在使用中的分布式文件系统有很多相似之处，但也有显著的不同之处。HDFS具有很高的容错性，被设计运行在低成本的硬件之上，提供访问应用程序数据的高吞吐量，适用于拥有大数据集的应用程序。HDFS放宽了一些POSIX要求以增强对文件系统数据的流访问。

在了解了HDFS是如何发展起来之后，现在看看设计HDFS时的设想或者想要实现怎样的目标呢。

硬件故障。硬件故障属于正常现象而不是异常，也就是说硬件故障是在物理硬件在持续工作了若干时间后出现的自然问题并非出自人为的或者设计上的问题，也是在所难免的。HDFS实例可能由成百上千台服务器组成，每台存储了部分文件系统数据。实际情况中HDFS拥有巨大数量的组成部分，并且每个部分都有小概率的可能性发生故障，这就意味着在HDFS中有些部分总是不能正常工作的。因此，检查错误并且快速、自动地恢复这些部分就是HDFS的核心架构目标。
流数据访问。运行在HDFS上的应用程序需要以流方式读取它们的数据集，这些应用程序不是典型地运行在通用文件系统上的通用应用程序。HDFS被设计更多地用于批量处理而不是与用户交互使用，重点是高吞吐量的数据读取而不是低延迟的数据读取。POSIX的一些硬性要求是运行在HDFS上的应用程序不需要的，HDFS放宽了这些要求，在一些关键领域POS

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

文宇肃然 精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。