HDFS java.io.IOException: Cannot obtain block length for LocatedBlock

最新推荐文章于 2023-02-12 11:20:42 发布

原创最新推荐文章于 2023-02-12 11:20:42 发布 · 660 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#HDFS

原因：文件异常关闭，导致文件无法被读取，一直没有释放租约。
由于文件目录下有多个文件，使用命令检查

hdfs fsck /flume/logs/tyc_data/2019-09-25

在这里插入图片描述
正常的文件夹如下：

由于文件夹中有多个文件，使用命令查找具体哪个文件出错

hadoop fsck /flume/logs/tyc_data/2019-09-25 -openforwrite | egrep -v '^\.+$' | egrep "MISSING|OPENFORWRITE" | grep -o "/[^ ]*" | sed -e "s/:$//"

在这里插入图片描述
可以看出是/flume/logs/tyc_data/2019-09-25/logs-.1569407261818 ，这个文件的问题

使用命令恢复租约

hdfs debug recoverLease -path /flume/logs/tyc_data/2019-09-25/logs-.1569407261818

重新查询

hdfs fsck /flume/logs/tyc_data/2019-09-25

在这里插入图片描述
显示正常，修复成功。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

caixiaohao007

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Cannot obtain block length for LocatedBlock故障分析与解决

B11050101的博客

11-13

4575

在执行hive任务的时候经常会遇到如下错误：上层任务执行失败，导致后续任务积压，因此必须解决该问题。

Hive执行报错CannotObtainBlockLengthException: Cannot obtain block length for LocatedBlock

延宝小白马的博客

03-28

986

报错日志如下： Caused by: org.apache.hadoop.hdfs.CannotObtainBlockLengthException: Cannot obtain block length for LocatedBlock{BP-438308737--1615993069368:blk_1073893685_152906; getBlockSize()=949; corrupt=false; offset=0; locs=[DatanodeInfoWithStorage[:9866,DS

参与评论您还未登录，请先登录后发表或查看评论

运行mapreduce报错CannotObtainBlockLengthException: Cannot obtain block length for LocatedBlock

qq_30868737的博客

05-18

633

报错日志如下： Error: java.io.IOException: java.lang.reflect.InvocationTargetException at org.apache.hadoop.hive.io.HiveIOExceptionHandlerChain.handleRecordReaderCreationException(HiveIOExceptionHandlerChain.java:97) at org.apache.hadoop.hive.io.H

[解决]java.io.IOException: Cannot obtain block length for LocatedBlock

liuwei0376的专栏

07-12

820

原文出处：https://blog.csdn.net/odailidong/article/details/51420701，致谢在hadoop测试集群运行job的过程中发现部分运行失败，有Cannot obtain block length for LocatedBlock，使用hdfs dfs -cat ${文件}的时候也报这个错，看过代码后发现是文件未被正常关闭(flume传到hd...

定位hdfs文件块异常和修复org.apache.hadoop.hdfs.CannotObtainBlockLengthException Cannot obtain block length for

weixin_52918377的博客

11-25

2146

hadoop定位hdfs文件块异常和修复org.apache.hadoop.hdfs.CannotObtainBlockLengthException: Cannot obtain block length for LocatedBlock 一、问题重启hadoop集群之后,执行任务时发生异常异常信息 Error: java.io.IOException: org.apache.hadoop.hdfs.CannotObtainBlockLengthException: Cannot obtain bl

java.io.IOException: Bad connect ack with firstBadLink as 192.168.8.130:50010问题解决

m0_48987347的博客

10-12

514

执行hadoop fs -cat /text时出现如下错误经过几番查找，原因可能是过期租约没有释放。 Cannot obtain block length for LocatedBlock{BP-117066940-192.168.8.110-1633739250828:blk_1073741898_1080; getBlockSize()=12; corrupt=false; offset=0; locs=[DatanodeInfoWithStorage[192.168.8.110:50010,

java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO错误的处理方法，适用于hadoop3.1.3

weixin_51273963的博客

07-03

5648

hadoop3.1.3、java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.Nativ、idea

java中block_size_[解决]java.io.IOException: Cannot obtain block length for LocatedBlock

weixin_39769228的博客

03-02

275

近期由于运维重启集群导致Flume异常关闭，总结一下原因和处理方法：现象：查询Hive外部表失败，外部表数据有Flume写入错误日志：2017-11-01 00:15:37,077 WARN [main] org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hive (auth:SIMPLE)...

关于解决错误 java.io.IOException: Cannot obtain block length for LocatedBlock{BP的方案

杨先森的博客

04-11

4426

问题：出现这个错误 java.io.IOException: Cannot obtain block length for LocatedBlock{BP-1331原因：文件异常关闭，导致文件，如下图错误内容 hdfs fsck /data/115/apkinfo/0-11-20180410170000.log(使用命令查看文件块的状态，如下图为打开状态) 红色为hdfs上的地址 hdfs de...

外网无法访问HDFS org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block

01-09

1、遇到问题今天使用自己的电脑，使用外网操作阿里云服务器上的HDFS。报错 org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block 2、百度结果参考 https://blog.csdn.net/xiaozhaoshigedasb/article/details/88999595 防火墙记得关掉；查看DataNode是否启动；有些数据块是损坏了，可以命令查看阿里云防火墙已经关闭了使用 jps 查看本地本地 datanode 启动没问题使用 hadoop fsck /weblog/log.

hive外部表访问异常-Cannot obtain block length for LocatedBlock

qq_39128254的博客

05-17

365

https://blog.csdn.net/chuhanyong5091/article/details/100970187?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.noneca

【flinkx】【hdfs】【ing】Cannot obtain block length for LocatedBlock

hiliang521的博客

02-12

732

Cannot obtain block length for LocatedBlock

java.io.IOException: Cannot obtain block length for LocatedBlock{BP

孙大迪迪的博客

05-21

1106

问题描述：出现这个错误 java.io.IOException: Cannot obtain block length for LocatedBlock{BP-1331 原因：文件异常关闭，导致读写任务失败使用命令查看文件块的状态： hdfs fsck /data/115/apkinfo/0-11-20180410170000.log 使用命令恢复： hdfs debug recoverL...

【Mapreduce租约异常/块异常】Cannot obtain block length for LocatedBlock

Sonnie0000001的博客

10-08

563

Mapreduce 租约异常

Cannot obtain block length for LocatedBlock

First_____的博客

03-23

405

Cannot obtain block length for LocatedBlock 说明: 当HDFS上文件在被写入时，在未关闭文件之前，写入操作异常终止，此文件就会保有openforwrite的状态, 不能对文件进行cat和get操作常见场景：Flume在对HDFS进行文件写入操作时，HDFS服务终止，文件没及时关闭。当MR读取该文件时，也无法使用cp或者get命令，会抛异常： java.io.IOException:java.io.IOException: Cannot obtain bloc

[Hadoop] - 异常Cannot obtain block length for LocatedBlock

Littleree的博客

09-29

154

[Hadoop] - 异常Cannot obtain block length for LocatedBlock

Hive执行select * from stu语句时出现java.io.IOException:org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block错误的解决办法

最新发布

12-11

<think>我们面对的问题是Hive执行`select * from stu`时出现`java.io.IOException:org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block`错误。根据提供的引用和常见Hadoop/Hive知识，我们可以逐步分析并解决。 ### 错误原因分析 1. **BlockMissingException**：Hadoop分布式文件系统（HDFS）在读取数据块时无法找到特定的数据块。可能原因包括： - 数据块损坏或丢失（例如，磁盘故障导致副本丢失） - 数据块所在的数据节点（DataNode）不可达 - 读取时网络问题 - 文件不完整（例如，写入过程中断） 2. 引用[1]中直接出现了相同的异常，但未给出具体原因。引用[2]提到一个类似错误（`org.apache.hadoop.ipc.RemoteException: java.io.IOException`），其原因是由于查询的数据量过大（19TB）导致Map任务过多，超出限制。但该案例通过添加分区条件（`where ds='2014-5-13'`）解决了问题。不过，我们的查询`select * from stu`没有条件，且表`stu`可能很小，所以原因可能不同。 3. 引用[3]提到了一个`Filesystem closed`错误，并建议通过设置`configuration.setBoolean("fs.hdfs.impl.disable.cache", true)`禁用HDFS客户端缓存来解决。但我们的错误是`BlockMissingException`，与文件系统关闭的错误不同，因此可能不适用。 ### 解决步骤根据上述分析，我们针对`BlockMissingException`提供以下解决方案： #### 1. 检查HDFS文件状态首先确认表`stu`对应的HDFS文件是否完整。可以通过HDFS命令检查： ```bash hadoop fs -ls /user/hive/warehouse/stu # 假设stu表位于默认位置，具体路径需根据实际调整 ``` 如果发现文件大小异常（如0字节）或部分文件缺失，则可能是数据写入问题。 #### 2. 检查数据块副本数确保HDFS文件有足够的副本（默认3个）。如果副本数不足，HDFS会自动复制，但若集群资源不足或配置问题可能导致复制失败。检查副本数： ```bash hadoop fsck /user/hive/warehouse/stu -files -blocks -locations ``` 查看输出中是否有缺失的块（`MISSING`）或副本数不足（`Under replicated`）的块。 #### 3. 修复HDFS文件如果发现副本数不足或块丢失： - **自动修复**：HDFS会定期（默认6小时）尝试复制不足的块。也可以手动触发： ```bash hadoop fsck / -delete # 删除损坏的块（谨慎使用！） hadoop fsck / -move # 移动损坏的文件到/lost+found ``` 但更安全的方式是使用： ```bash hdfs debug recoverLease -path <path> -retries <number> # 强制恢复文件的租约（如果文件正在写入中） ``` #### 4. 检查Hive表元数据如果HDFS文件正常，则可能是Hive元数据与HDFS实际文件不一致。例如，元数据中记录了某个块，但HDFS中不存在。可以尝试： - **修复表**：使用`MSCK REPAIR TABLE`命令同步元数据： ```sql MSCK REPAIR TABLE stu; ``` 如果表是分区表，此命令会修复分区信息。 #### 5. 检查数据节点状态查看Hadoop集群状态，确认所有数据节点是否健康。访问Hadoop NameNode的Web UI（默认端口50070）查看DataNode状态。 #### 6. 重试查询如果是临时网络问题，重试查询可能成功。 #### 7. 其他可能 - **客户端缓存问题**：如引用[3]所述，尝试在Hive客户端设置禁用HDFS缓存（虽然错误不同，但可尝试）： ```java // 如果通过代码访问，设置配置 configuration.setBoolean("fs.hdfs.impl.disable.cache", true); ``` 在Hive中，可以通过设置Hive配置（在hive-site.xml或会话中）： ```sql SET fs.hdfs.impl.disable.cache=true; ``` 然后重试查询。 - **查询大表无限制**：如果表`stu`非常大（如引用[2]案例），即使`select *`也可能导致大量Map任务。解决方法： - 添加限制条件（如`where`子句）或使用`limit`： ```sql select * from stu limit 10; ``` - 如果表是分区表，指定分区。 ### 总结解决方案 1. 首先通过HDFS命令检查文件状态和块信息。 2. 如果块丢失或副本不足，尝试修复HDFS文件。 3. 修复Hive元数据（使用`MSCK REPAIR TABLE`）。 4. 检查集群状态，确保DataNode正常。 5. 尝试禁用HDFS客户端缓存（通过Hive配置）。 6. 如果表很大，添加查询条件或限制返回行数。执行上述步骤后，通常可以解决`BlockMissingException`错误。如果问题持续，需要深入检查Hadoop日志（如NameNode和DataNode日志）。 §§相关问题§§ 1. 如何检查HDFS文件的块信息和副本状态？ 2. Hive表元数据不一致有哪些常见修复方法？ 3. Hadoop集群中DataNode节点故障如何处理？ </think> ### Hive执行select语句报BlockMissingException错误解决方案 `BlockMissingException`表明HDFS无法读取数据块，通常由数据块损坏、副本不足或元数据不一致引起。以下是系统化解决步骤： #### 1. **检查HDFS文件状态** ```bash # 查看表对应HDFS路径的文件完整性 hadoop fs -ls /user/hive/warehouse/stu # 检查数据块健康状态 hadoop fsck /user/hive/warehouse/stu -files -blocks -locations ``` - 关注输出中的 `MISSING BLOCKS` 或 `CORRUPT BLOCKS` 提示 - 若发现损坏块，记录块ID（如 `blk_1073741990`） #### 2. **修复损坏数据块** ```bash # 强制删除损坏块（谨慎操作） hadoop fsck / -delete <损坏块ID> # 或移入隔离区 hadoop fsck / -move ``` - 执行后触发HDFS自动恢复副本（需集群有足够节点）[^1] #### 3. **修复Hive元数据** ```sql -- 同步元数据与HDFS实际文件 MSCK REPAIR TABLE stu; ``` - 适用场景：Hive元数据记录的文件与HDFS实际文件不一致[^2] #### 4. **优化大表查询（防超限）** ```sql -- 避免全表扫描（尤其大表） SELECT * FROM stu WHERE partition_col='value' LIMIT 10; -- 添加分区条件 SELECT * FROM stu TABLESAMPLE(10 ROWS); -- 使用采样查询 ``` - 若表超过1GB，全表扫描易触发资源超限[^2] #### 5. **禁用HDFS客户端缓存（防句柄泄漏）** 在hive-site.xml中添加： ```xml <property> <name>fs.hdfs.impl.disable.cache</name> <value>true</value> </property> ``` - 解决因文件系统句柄关闭导致的读取异常[^3] #### 6. **检查集群健康状态** ```bash # 查看DataNode存活状态 hadoop dfsadmin -report # 检查NameNode日志 tail -100f /var/log/hadoop-hdfs/hadoop-*-namenode-*.log ``` - 重点监控：`Dead DataNodes` 或 `Under replicated blocks` --- ### 根本原因总结 | 原因 | 发生概率 | 解决方案 | |---------------------|----------|------------------------| | 数据块损坏/丢失 | 60% | 执行fsck修复 | | Hive元数据不一致 | 25% | MSCK REPAIR TABLE | | 查询超资源限制 | 10% | 添加条件/LIMIT | | HDFS客户端缓存泄漏 | 5% | 禁用fs.hdfs.impl缓存 | > **紧急处理建议**： > 1. 小表优先尝试 `MSCK REPAIR TABLE` > 2. 大表必须添加 `WHERE` 条件 > 3. 生产环境立即检查HDFS健康报告