CannotObtainBlockLengthException问题分析

最新推荐文章于 2023-02-12 11:20:42 发布

༺❀ൢ 故渊 ❀ൢ༻

最新推荐文章于 2023-02-12 11:20:42 发布

阅读量691

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/trmplarguard/article/details/109622760

本文详细介绍了在HDFS中遇到CannotObtainBlockLengthException异常的分析过程。当两个DataNode宕机并恢复后，尽管没有missing block，但MR任务仍失败。问题源于DataNode非正常关闭导致NameNode对block状态认知错误，处于openforwrite状态。通过使用Hadoop的租约修复工具hdfs debug recoverLease进行处理，并通过fsck命令定位问题block，最终成功解决问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

用户反馈MR任务失败，通过查看job的diagnose信息，发现如下异常

另外需要交待一下背景，下午发生2个datanode机器同时宕机的问题，我们是有2副本的数据的，因此当2个datanode同时失效，一定会有一定比例的块丢失，在这两个datanode恢复一个之前，一定又有hdfs的客户端报错Missing Block。

本文这个问题更加特殊，在这个任务失败前，2个宕机节点都已经恢复了，不存在missing block。

所以这个情况给了我们一个非常重要的警示，即使不存在missing block，不代表hdfs的数据状态就100%正常的，而且hdfs不会给出提示，目前只有客户端读取这些数据的时候才能发现，不可不谓一个重大的隐患。

在datanode恢复以后，没有missing block依然有状态不正常的数据，我们可以很自然的想到，数据没有丢，但是正在write过程中的数据，由于datanode强行的关闭，导致namenode对block的状态了解的不正常。

涉及到write的过程，我们很自然的可以了解到写锁，在hdfs里叫租约机制。这个时候我们的一个猜想就是这个block是存在的，但是因为datanode的非正常关闭导致namenode对于这个block的认知依然是它还在openforwrite状态。

我们知道Hadoop提供了关于租约机制的修复工具，如下

hdfs debug recoverLease -path [path] 需要指定文件路径。

文件路径怎么来？

通过异常日志，我们可以看到blk_XXXXXXXX 这个就是blockId

通过 hdfs fsck -showprogress -blockId blk_XXXXXXX 我们可以了解到这个block对应的目录是什么

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。