HDFS技术原理

最新推荐文章于 2023-07-22 10:36:53 发布

~流星

最新推荐文章于 2023-07-22 10:36:53 发布

阅读量543

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： HDFS的优缺点 HDFS的设计思想 HDFS的主从架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43306844/article/details/86766106

大数据专栏收录该内容

7 篇文章

订阅专栏

什么是HDFS？

HDFS(Hadoop Distributed File System)基于Google发布的GFS论文设计开发，运行在通用硬件平台上的分布式文件系统。

hdfs的优点：

可构建在廉价机器上，成本低。
高容错性，通过多副本提高可靠性，提供了容错和恢复机制。
适合离线批处理，不适合处理实时数据。
移动计算：数据在哪里，计算就到哪里，计算跟着数据跑。
适合海量数据处理，GB、TB、甚至 PB 级数据，百万规模以上的文件数量，10K+节点规模。
流式文件访问，一次性写入，多次读取，保证数据一致性，hdfs不支持文件修改，但是支持文件追加。

hdfs的缺点：

不支持实时数据处理
不适合小文件的存储，原因：1）寻址时间过长，寻道时间超过读取时间 2）占用 NameNode 大量内存，会造成namenode的压力过大。
不支持数据修改一次写入多次读取

HDFS的设计思想

分而治之——海量数据分块存储的思想

大文件被切割成小文件，使用分而治之的思想让很多服务器对同一个文件进行联合管理，如何分块？块太大容易出现负载不均衡，数据块太小造成namenode压力太大。HDFS在设计的时候默认一个块128m。

冗余备份——每个数据块多个副本

每个小文件做冗余备份，并且分散存到不同的服务器，做到高可靠不丢失。

HDFS的系统架构

各自作用：

主节点NameNode的作用：

存储管理元数据信息，（元数据就是管理DataNode数据的数据，主要有三个方面：1抽象目录树，2数据和块的对应关系，3数据块的存储位置）
处理客户端读写请求，客户端的读写请求首先要访问namenode.
接受datanode的心跳报告
负载均衡
负责数据块的副本的存储节点的分配

从节点DataNode的作用：

真正进行数据块的存储
真正处理客户端的读写请求
向namenode发送心跳报告
进行副本的复制

助理SecondaryNameNode的作用：

帮助namenode备份元数据信息 namenode宕机后，可以进行数据恢复
帮助namenode做一些事情（元数据合并）减轻namenode的压力

客户端：

发送读写请求
对上传的文件进行逻辑切块和物理切块
向namenode反馈数据上传，下载的响应

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。