parquet.io.ParquetDecodingException: Can not read value at 0 in block -1 in file 记录解决办法

本文详细解析了在将AWS上的Parquet格式数据导入自建Hive仓库时遇到的读取错误,并深入分析了问题根源在于Hive与Spark使用不同的Parquet数据规范。通过调整Spark的Parquet写入格式为legacy模式,成功解决了数据加载问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 该问题出现原因:
    该问题出现在aws数据导入到我自己平台的hive仓库过程中出现的,AWS上该表的加工过程我也不清楚,只知道存储格式是parquet。然后通过show create table tb_a;得到了建表语句,然后我就用此建表语句在自己的仓库中建表,大致如下:

建表:

CREATE EXTERNAL TABLE `s_tb_a`(
aaa  string,
bbb double,
ccc  string,
eee  string, 
ddd  string,
ffff    string,
hhh  double,
iiii    string,
jjjj    decimal(38,4)
     )
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
stored as Parquet;

从ASW拷贝数据:
hadoop distcp s3n://xxxxxx/dbName/tb_a/* /user/hive/warehouse/stage.db/s_tb_a/

然后查询就报错了:Can not read value at 0 in block -1 in file

  1. 原因分析:
    刚开始以为自己建的表跟aws格式不同所以无法加载,后来确实是没问题的;
    也把decimal数据类型改成string或double过都不行。
    后来找到这个
    Root Cause:
java.lang.ClassNotFoundException是Java编程中的一个异常类,它表示无法找到指定的类。在你提供的问题中,异常的完整名称是java.lang.ClassNotFoundException: org.apache.hadoop.hive.ql.io.parquet.mapreduce.ParquetInputFormat。 这个异常通常发生在Java程序中使用Hadoop和Hive进行数据处理时。它的出现意味着Java虚拟机(JVM)无法加载指定的类。 主要原因可能有以下几种情况: 1. 缺少相关的依赖库:在使用Hive和Parquet进行数据处理时,需要正确配置和引入相关的依赖库。如果依赖库缺失或版本不匹配,就可能导致ClassNotFoundException的异常。解决方法是确保所有的依赖库都被正确引入,并且版本相互兼容。 2. 类路径配置错误:JVM在运行Java程序时会在类路径中查找需要的类。如果类路径没有正确配置,就无法找到目标类,也会触发ClassNotFoundException。检查类路径配置,确保包含了正确的依赖库和类路径。 3. 类名拼写错误:有时候,类名可能被错误地拼写,导致JVM无法找到目标类。在这种情况下,只需检查并修正类名的拼写错误即可。 综上所述,java.lang.ClassNotFoundException: org.apache.hadoop.hive.ql.io.parquet.mapreduce.ParquetInputFormat是一个Java类加载异常,常见于使用Hadoop和Hive进行数据处理时。解决这个问题的关键是检查依赖库的引入、类路径的配置和类名的拼写,确保所有配置正确无误。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值