hadoop平台读取文件报错

最新推荐文章于 2025-06-18 17:53:41 发布

li72li72

最新推荐文章于 2025-06-18 17:53:41 发布

阅读量6.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： hadoop 学习笔记

本文链接：https://blog.youkuaiyun.com/lili72/article/details/41810891

学习笔记同时被 2 个专栏收录

33 篇文章

订阅专栏

hadoop

21 篇文章

订阅专栏

本文详细描述了在使用Hadoop读取压缩文件时遇到的IO错误问题，包括错误日志解析、问题定位以及最终的解决策略。通过删除出错文件并重新执行脚本的方法成功解决了问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景：生产环境有个脚本执行读取st层表数据时出现IO错误，查看表目录下的文件，都是压缩后的文件。详细信息如下：

Task with the most failures(4):
-----
Task ID:
task_201408301703_172845_m_003505

URL:
http://master:50030/taskdetails.jsp?jobid=job_201408301703_172845&tipid=task_201408301703_172845_m_003505
-----
Diagnostic Messages for this Task:
java.io.IOException: IO error in map input file hdfs://master:9000/user/hive/warehouse/pc.db/dwd_st_pc_list/dt=startup/startup-m-03653.gz
at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.moveToNext(MapTask.java:242)
at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.next(MapTask.java:216)
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:48)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:436)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:372)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1149)
at org.apache.hadoop.mapred.Child.main(Child.java:249)
Caused by: java.io.IOException: java.io.EOFException: Unexpected end of input stream
at org.apache.hadoop.hive.io.HiveIOExceptionHandlerChain.handleRecordReaderNextException(HiveIOExceptionHandlerChain.java:121)
at org.apache.hadoop.hive.io.HiveIOExceptionHandlerUtil.handleRecordReaderNextException(HiveIOExceptionHandlerUtil.java:77)
at org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader.doNext(HiveContextAwareRecordReader.java:276)
at org.apache.hadoop.hive.ql.io.HiveRecordReader.doNext(HiveRecordReader.java:79)
at org.apache.hadoop.hive.ql.io.HiveRecordReader.doNext(HiveRecordReader.java:33)
at org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader.next(HiveContextAwareRecordReader.java:108)
at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.moveToNext(MapTask.java:236)
... 9 more
Caused by: java.io.EOFException: Unexpected end of input stream
at org.apache.hadoop.io.compress.DecompressorStream.decompress(DecompressorStream.java:137)
at org.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:77)
at java.io.InputStream.read(InputStream.java:101)
at org.apache.hadoop.util.LineReader.readLine(LineReader.java:134)
at org.apache.hadoop.mapred.LineRecordReader.next(LineRecordReader.java:176)
at org.apache.hadoop.mapred.LineRecordReader.next(LineRecordReader.java:43)
at org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader.doNext(HiveContextAwareRecordReader.java:274)
... 13 more

FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask
MapReduce Jobs Launched:
Job 0: Map: 12137 Reduce: 100 Cumulative CPU: 23227.51 sec HDFS Read: 2121148099 HDFS Write: 0 FAIL
Total MapReduce CPU Time Spent: 0 days 6 hours 27 minutes 7 seconds 510 msec

查看对应的job任务日志，发现有些文件解压报错，找到对应的文件，下载到本地解压，还是报错。
考虑到hadoop的备份了几份，于是把这份出错的文件删掉，删除重试上面的脚本即可。