Hadoop生态圈（三）- HDFS（分布式文件系统）

木鬼与槐

已于 2024-08-28 15:25:55 修改

阅读量1.1k

点赞数 24

分类专栏： # Hadoop生态圈大数据文章标签： hadoop hdfs 大数据

于 2024-08-28 15:25:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_58305115/article/details/141634292

版权

目录

HDFS基本原理

HDSF读写操作

HDFS写数据流程

HDFS读数据流程

HDFS元数据管理

HDFS解决的是海量存储的问题

设计目标：

故障是常态，因此故障的检测和自动快速恢复是核心
适合批量处理，注重数据访问的高吞吐量。一旦写入不需要修改
支持大文件
文件一旦创建、写入、关闭之后就不需要修改
移动计算的代价比移动数据的代价低
可移植性强。其他软件平台或异构硬件

特性：

NameNode负责管理整个文件系统元数据；DataNode负责管理具体文件数据块存储；Secondary NameNode协助NameNode进行元数据的备份。
HDFS即是一个文件系统又是分布式。
主从架构（一个namenode和多个datanode），Namenode是HDFS集群主节点，Datanode是HDFS集群从节点，两种角色各司其职，共同协调完成分布式的文件存储服务。
文件是以128M块（block）存储，以64K的数据包传送。hadoop 1.X是64M
我们把目录结构及文件分块位置信息叫做元数据。元数据是关于数据的信息，包括文件名、文件大小、文件权限等。Namenode通过创建元数据本地存储目录和一些初始化的元数据相关文件来管理和维护这些信息。
datanode需要定时向namenode汇报自己的block信息时间间隔默认为6小时，会定期发送心跳，默认为3秒。
副本数量也可以通过参数设置dfs.replication，默认是3。
namenode是集群的单点故障，坏了就不可运行

最低0.47元/天解锁文章

博客等级

码龄4年

147
原创

1972
点赞

1173
收藏

1499
粉丝

关注

私信

热门文章

分类专栏

技术栈 1篇
大数据 5篇
数据分析 18篇
spark 16篇
python 11篇
部署 1篇
虚拟机 1篇
Hadoop生态圈 7篇
MySQL练习题 82篇
MYSQL 9篇

展开全部收起

上一篇：: Hadoop生态圈（一）

下一篇：: hadoop生态圈（四）- MapReduce

最新评论

Spark算子使用-Map,FlatMap,Filter,diatinct,groupBy,sortBy
小王毕业啦: 这篇博主的文章真的让我大开眼界，对于Spark算子的使用有了全新的认识。博主对于Map,FlatMap,Filter,distinct,groupBy,sortBy这些算子的解析非常详细，让我受益匪浅。文章逻辑清晰，用词精准，展现出博主深厚的专业功底。希望博主能继续分享更多类似优质内容，也愿意接受博主的指导，一起共同进步。衷心感谢博主的辛勤付出和支持！
Python(八)-异常
凡梦_leo: 厉害,国庆都不带休息的
MySQL高阶1843-可疑银行账户
穷苦书生_万事愁: 博主的这篇《MySQL高阶1843-可疑银行账户》文章内容十分深入，让我对这个主题有了全新的认识。博主的细节描写非常到位，让我感受到了博主的深厚功底和专业知识。期待博主未来能够持续分享更多类似的好文，希望能够得到博主的指导，共同进步。非常感谢博主的无私分享和支持！
Python(三)-流程控制
凡梦_leo: 大到一个复杂的程序,小到一个小的脚本都离不开三种语句: 1,定义语句 2,选择语句 3,循环语句
虚拟机的安装-详细教程
奋斗小椰子: 太太太太太有实例了吧!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。