hadoop之datanode节点超时时间设置与HDFS冗余数据块的自动删除_刷新 datanode 的数据目录列表时间过长-优快云博客

本文解析HDFS中Datanode超时机制，包括超时时间计算及参数配置，同时探讨冗余数据块自动删除原理，涉及Datanode与Namenode通信、数据块报告间隔等关键细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一 Datanode节点超时时间设置
datanode进程死亡或者网络故障造成datanode无法与namenode通信，
namenode不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长。
HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout，则超时时长的计算公式为：
   timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval。
   而默认的heartbeat.recheck.interval 大小为5分钟，dfs.heartbeat.interval默认为3秒。
   需要注意的是hdfs-site.xml 配置文件中的
   heartbeat.recheck.interval的单位为毫秒，
   dfs.heartbeat.interval的单位为秒。

   所以，举个例子，如果heartbeat.recheck.interval设置为5000（毫秒），dfs.heartbeat.interval设置为3（秒，默认），则总的超时时间为40秒。
   hdfs-site.xml中的参数设置格式：

<property>
    <name>heartbeat.recheck.interval</name>
    <value>2000</value>
</property>
<property>
    <name>dfs.heartbeat.interval</name>
    <value>1</value>
</property>

二 HDFS冗余数据块的自动删除
在日常维护hadoop集群的过程中发现这样一种情况：
   某个节点由于网络故障或者DataNode进程死亡，被NameNode判定为死亡，
   HDFS马上自动开始数据块的容错拷贝；
   当该节点重新添加到集群中时，由于该节点上的数据其实并没有损坏，
   所以造成了HDFS上某些block的备份数超过了设定的备份数。
   通过观察发现，这些多余的数据块经过很长的一段时间才会被完全删除掉，
   那么这个时间取决于什么呢？
   该时间的长短跟数据块报告的间隔时间有关。
   Datanode会定期将当前该结点上所有的BLOCK信息报告给Namenode，
   参数dfs.blockreport.intervalMsec就是控制这个报告间隔的参数。

   hdfs-site.xml文件中有一个参数：

<property>
    <name>dfs.blockreport.intervalMsec</name>
    <value>10000</value>
    <description>Determines block reporting interval in milliseconds.</description>
</property>

其中3600000为默认设置，3600000毫秒，即1个小时，也就是说，块报告的时间间隔为1个小时，所以经过了很长时间这些多余的块才被删除掉。通过实际测试发现，当把该参数调整的稍小一点的时候（60秒），多余的数据块确实很快就被删除了。

原文：https://blog.youkuaiyun.com/ZG_24/article/details/80719271