namenode，secondary namenode和datanode的工作机制

最新推荐文章于 2024-04-29 18:19:35 发布

原创最新推荐文章于 2024-04-29 18:19:35 发布 · 356 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

大数据专栏收录该内容

4 篇文章

订阅专栏

本文详细解析了Hadoop中Namenode和Datanode的工作流程，包括Namenode启动、元数据管理、SecondaryNamenode的检查点机制及Datanode的数据存储、心跳机制与块信息上报过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

namenode的工作机制：

第一阶段：namenode启动

（1）第一次启动namenode格式化之后，创建fsimage和edits文件。如果不是第一次启动，则直接加载编辑日志和镜像文件到内存。

（2）客户端对元数据进行增删改的请求。

（3）namenode记录操作日志，更新滚动日志。

（4）namenode在内存中对数据进行增删改查

第二阶段：Secondarynamenode工作

（1）Secondary NameNode询问namenode是否需要checkpoint。直接带回namenode是否检查结果。

（2）Secondary NameNode请求执行checkpoint。

（3）namenode滚动正在写的edits日志

（4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode

（5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。

（6）生成新的镜像文件fsimage.chkpoint

（7）拷贝fsimage.chkpoint到namenode

（8）namenode将fsimage.chkpoint重新命名成fsimage

web端访问SecondaryNameNode

（1）启动集群

（2）浏览器中输入：http://hadoop102:50090/status.html

（3）查看SecondaryNameNode信息

通常情况下，（1）secondarynamenode一个小时检查一次checkpoint

hdfs-default.xml

<property>

<name>dfs.namenode.checkpoint.period</name>

<value>3600</value>

</property>

（2））一分钟检查一次操作次数，当操作次数达到1百万时，SecondaryNameNode执行一次

<property>

<name>dfs.namenode.checkpoint.txns</name>

<value>1000000</value>

<description>操作动作次数</description>

</property>

<property>

<name>dfs.namenode.checkpoint.check.period</name>

<value>60</value>

<description> 1分钟检查一次操作次数</description>

</property>

上面这个是系统默认值，我们可以通过修改每2分钟检查一次，是否要合并镜像文件，来模拟secondarynamenode的合并，即强制滚动编辑日志。

datanode的工作机制

1）一个数据块在datanode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。

2）DataNode启动后向namenode注册，通过后，周期性（1小时）的向namenode上报所有的块信息。

3）心跳是每3秒一次，心跳返回结果带有namenode给该datanode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个datanode的心跳，则认为该节点不可用。

4）集群运行中可以安全加入和退出一些机器。

datanode掉线时的说明：

当datanode掉线即进程死亡的时候，于namenode失去联系的时候，namenode并不会立即把当前线程立即判定为死亡，要经过一段时间的考验，HDFS默认为10分钟加30秒

计算公式为：timeout = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval

而默认的dfs.namenode.heartbeat.recheck-interval 大小为5分钟，dfs.heartbeat.interval默认为3秒。

需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒，dfs.heartbeat.interval的单位为秒。

<property>

<name>dfs.namenode.heartbeat.recheck-interval</name>

<value>300000</value>

</property>

<property>

<name> dfs.heartbeat.interval </name>

<value>3</value>

</property>

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。