Hadoop1.x之hdfs

深入理解Hadoop1.x：HDFS详解

最新推荐文章于 2023-01-28 17:15:56 发布

原创最新推荐文章于 2023-01-28 17:15:56 发布 · 559 阅读

CC 4.0 BY-SA版权

文章标签：

17 篇文章

订阅专栏

本文详细介绍了Hadoop的分布式文件系统HDFS，包括其优缺点、运行机制、存储单元Block以及读写流程，是理解Hadoop分布式存储的重要参考资料。

hdfs全称Hadoop Distributed File System(hadoop分布式文件系统)

HDFS优缺点：

hdfs优点	hdfs缺点
高容错性数据自动保存多个副本副本丢失后自动恢复适合批处理移动计算而非数据数据位置暴露给计算框架适合大数据处理可构建在廉价机器上通过多副本提高可靠性提供了容错和恢复机制	低延迟数据访问低延迟与高吞吐率小文件存取占用NameNode大量内存寻道时间超过读取时间并发写入、文件随机修改一个文件只能有一个写者仅支持append

HDFS运行机制：

HDFS存储单元block

Block副本放置策略

NameNode、DataNode和SecondaryNameNode

NameNode(NN)	DataNode(DN)	SecondaryNameNode(SNN)
主要功能：接受客户端的读写服务 --文件的owership和permissions --文件包含哪些Block --Block保存在哪些DN上（由DN启动时上报）保存metadata信息 NN的metadata信息启动时会加载到内存 --metadata储存到磁盘文件名为fsimage --Block的位置信息不会保存到fsimage --edits记录对metadata的操作日志	存储数据（Block）启动DN线程时会想NN回报Block信息通过向NN发送心跳保持联系，如果NN10分钟没有受到DN的心跳，则认为i其已经lost	SNN不是NN的备份，主要工作是帮助NN合并editslog，减少NN启动时间 SNN执行合并时机 --根据配置文件设置的时间间隔fs.checkpoint.period默认3600秒 --根据配置文件设置的editslog大小fs.checkpoint.size规定edits文件的最大默认值是64MB