记一次mr中途落盘数据丢失 hdfs超租约异常 Error: java.io.FileNotFoundException: File does not exist:

Direction_Wind

已于 2023-11-17 11:21:10 修改

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

文章标签： hadoop mr java

于 2023-01-31 14:27:40 首次发布

本文链接：https://blog.youkuaiyun.com/Direction_Wind/article/details/128813719

flink/hive/iceberg 报错调试记录专栏收录该内容

16 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

MR任务偶尔在执行过程中出现文件不存在的错误，导致任务显示成功但实际失败。报错涉及HDFS超租约异常，具体表现为File does not exist。通过检查日志和相关资料，发现该问题可能与HDFS的基础环境设置有关。最终，通过将DataNode的最大数据传输线程参数加倍，成功解决了这个问题。

现象为：mr任务偶尔中途失败，但执行结果yarn会判定为成功，具体可以看日志报错。

hive sql中途的报错，使用的是tez引擎：
在这里插入图片描述
sqoop同步mysql到hdfs中的报错：

Caused by: org.apache.hadoop.ipc.RemoteException(java.io.FileNotFoundException): File does not exist: /user/liveme/facebook/_temporary/1/_temporary/attempt_1666686642034_1714844_m_000001_0/part-m-00001 (inode 1448130627) Holder DFSClient_attempt_1666686642034_1714844_m_000001_0_275261276_1 does not have any open files.

Error: java.io.FileNotFoundException: File does not exist: /user/liveme/facebook/_temporary/1/_temporary/attempt_1666686642034_1714844_m_000001_0/part-m-00001 (inode 1448130627) Holder DFSClient_attempt_1666686642034_1714844_m_000001_0_275261276_1 does not have any open files.

这种问题首先定位的是hdfs和hadoop基础环境的问题，因为不是稳定发生，概率也不确定，所以非常不好复现，但却关键时刻会发生给你一记背刺，最关键的是失败了他会判定为成功，你就算监控都监控不到，就很让人麻。

经过查询资料
https://doc.hcs.huawei.com/zh-cn/usermanual/mrs/mrs_03_0084.html
https://blog.youkuaiyun.com/slx_2011/article/details/30286395
https://blog.youkuaiyun.com/slx_2011/article/details/30286395
https://community.pivotal.io/s/article/Hive-job-failed-with-error-org-apache-hadoop-ipc-RemoteException-org-apache-hadoop-hdfs-server-namenode-LeaseExpiredException?language=en_US
在这里插入图片描述
将DataNode max data transfer threads 参数从16401 翻倍解决问题