hdfs datanode启动失败 org.apache.hadoop.util.DiskChecker$DiskErrorException: Directory is not readable

Hadoop DataNode启动失败:磁盘错误与容错配置
博客讲述了在运行Hadoop集群时遇到DataNode启动失败的问题,日志显示磁盘不可读。通过检查发现挂载的磁盘不存在,且配置的容错磁盘数量为0。解决方案包括增加容错磁盘数量或调整配置文件中不正确的磁盘路径。

问题:

datanode启动失败,查看datanode日志

org.apache.hadoop.util.DiskChecker$DiskErrorException: Directory is not readable: /var/lib/docker/overlay2/2f1ec1e560a2d5d6d51fa8bb23bc3d0fe7dbcd07e6460273da8f70b7bc472af0/merged/hadoop/hdfs/data
	at org.apache.hadoop.util.DiskChecker.checkAccessByFileMethods(DiskChecker.java:119)
	at org.apache.hadoop.util.DiskChecker.checkDir(DiskChecker.java:99)
	at org.apache.hadoop.hdfs.server.datanode.StorageLocation.check(StorageLocation.java:128)
	at org.apache.hadoop.hdfs.server.datanode.StorageLocation.check(StorageLocation.java:44)
	at org.apache.hadoop.hdfs.server.datanode.checker.ThrottledAsyncChecker$1.call(ThrottledAsyncChecker.java:127)
	at java.util.concurrent.FutureTask.run(FutureTask.java:266)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)
2022-06-24 14:23:47,782 WARN  checker.StorageLocationChecker (StorageLocationChecker.java:check(208)) - Exception checking StorageLocation [DISK]file:/var/lib/docker/overlay2/de2f6b02326e3ebe8f209474868b6c0d55bb0c5fe3c798f9aa5bd5048ed38dbc/merged/hadoop/hdfs/data/
org.apache.hadoop.util.DiskChecker$DiskErrorException: Directory is not readable: /var/lib/docker/overlay2/de2f6b02326e3ebe8f209474868b6c0d55bb0c5fe3c798f9aa5bd5048ed38dbc/merged/hadoop/hdfs/data
	at org.apache.hadoop.util.DiskChecker.checkAccessByFileMethods(DiskChecker.java:119)
	at org.apache.hadoop.util.DiskChecker.checkDir(DiskChecker.java:99)
	at org.apache.hadoop.hdfs.server.datanode.StorageLocation.check(StorageLocation.java:128)
	at org.apache.hadoop.hdfs.server.datanode.StorageLocation.check(StorageLocation.java:44)
	at org.apache.hadoop.hdfs.server.datanode.checker.ThrottledAsyncChecker$1.call(ThrottledAsyncChecker.java:127)
	at java.util.concurrent.FutureTask.run(FutureTask.java:266)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)
2022-06-24 14:23:47,782 ERROR datanode.DataNode (DataNode.java:secureMain(2691)) - Exception in secureMain
org.apache.hadoop.util.DiskChecker$DiskErrorException: Too many failed volumes - current valid volumes: 4, volumes configured: 6, volumes failed: 2, volume failures tolerated: 0
	at org.apache.hadoop.hdfs.server.datanode.checker.StorageLocationChecker.check(StorageLocationChecker.java:216)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.makeInstance(DataNode.java:2583)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.instantiateDataNode(DataNode.java:2492)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.createDataNode(DataNode.java:2539)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.secureMain(DataNode.java:2684)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.main(DataNode.java:2708)

原因:
查看服务器文件系统和挂载发现挂载的磁盘不存在

df -h

查看hdfs数据目录 hdfs-site.xml的配置dfs.datanode.data.dir数据目录和dfs.datanode.failed.volumes.tolerated磁盘容错

<property>
    <name>dfs.datanode.data.dir</name>
    <value> file://目录</value>
</property>
<property>
        <name>dfs.datanode.failed.volumes.tolerated</name>
        <value>0</value>
</property>

解决:

因为没磁盘换,可将容错数量提高

<property>
        <name>dfs.datanode.failed.volumes.tolerated</name>
        <value>2</value>
</property>

或者将磁盘目录从配置项中删除

### 问题分析 在启动 HadoopDataNode 时,出现以下错误: ``` org.apache.hadoop.util.DiskChecker$DiskErrorException: Too many failed volumes - current valid volumes: 1, volumes configured: 2, volumes failed: 1, volume failures tolerated: 0 ``` 该错误表示 DataNode 检测到磁盘卷存在问题,当前配置了 2 个数据目录,但其中 1 个目录不可用,而系统允许的失败卷数量为 0,因此 DataNode 启动失败[^1]。 ### 解决方法 1. **检查磁盘目录配置** 确认 `hdfs-site.xml` 中配置的 `dfs.datanode.data.dir` 所指定的目录是否有效,且 DataNode 有权限访问这些目录。例如: ```xml <property> <name>dfs.datanode.data.dir</name> <value>file:///data1/hadoop/data,file:///data2/hadoop/data</value> </property> ``` 确保 `/data1/hadoop/data` 和 `/data2/hadoop/data` 目录存在,并且 DataNode 进程有读写权限。若某个目录损坏或不可用,需修复或更换目录路径[^4]。 2. **调整容错配置** 若允许部分磁盘失败,可以调整 `dfs.datanode.failed.volumes.tolerated` 参数,使其大于 0。例如: ```xml <property> <name>dfs.datanode.failed.volumes.tolerated</name> <value>1</value> </property> ``` 该配置表示允许 1 个磁盘目录失败DataNode 仍可启动。但需注意,此值不能超过配置的目录数量减一[^1]。 3. **检查磁盘空间和权限问题** 确保所有配置的目录具有足够的磁盘空间,并且 DataNode 用户有读写权限。可以通过以下命令检查目录权限: ```bash ls -ld /data1/hadoop/data /data2/hadoop/data ``` 如果权限不足,可使用 `chown` 和 `chmod` 修改目录权限: ```bash chown -R hadoop:hadoop /data1/hadoop/data chmod -R 750 /data1/hadoop/data ``` 4. **查看 DataNode 日志** 查看 DataNode 启动日志文件,通常位于 `$HADOOP_HOME/logs/` 下,如 `hadoop-hadoop-datanode-hostname.log`。日志中会记录具体的磁盘检查失败原因,便于进一步排查。 5. **同步配置文件到所有节点** 若集群中多个 DataNode 存在相同问题,需确保配置文件同步。例如使用 `scp` 将修改后的 `hdfs-site.xml` 同步到所有节点: ```bash cd $HADOOP_HOME/etc/hadoop scp hdfs-site.xml root@slave1:/path/to/hadoop/etc/hadoop/ scp hdfs-site.xml root@slave2:/path/to/hadoop/etc/hadoop/ ``` 确保所有节点使用相同的配置启动 DataNode[^5]。 --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

但行益事莫问前程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值