parquet is not a Parquet file (length is too low: 0)

原创已于 2023-05-11 19:06:11 修改 · 882 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hudi #flink

于 2023-05-11 11:37:31 首次发布

flink 同时被 3 个专栏收录

23 篇文章

订阅专栏

hudi

23 篇文章

订阅专栏

spark

19 篇文章

订阅专栏

当执行SparkSQL查询时，如果遇到isnotaParquetfile的错误，可能是由于对应分区的数据已被删除，变成空分区。删除空分区的解决方案是使用ALTERTABLE语句，例如：`ALTERTABLEtest_db.t_test_rtDROPPARTITION(ds=20230511);`。确保在删除前正确处理数据。

当执行 SparkSQL 遇到这个错误时，可能是因为对应分区的数据全被删除了，变成了空分区，解决办法是删除该分区。

hdfs://warehouse/test.db/t_test/20230511/eaf5f003-5658-4b19-b706-ac487cebad7e-0_3-10-79_20230421093519585.parquet is not a Parquet file (length is too low: 0)

删除指定分区语句：

ALTER TABLE test_db.t_test_rt DROP PARTITION (ds=20230511');

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

岚天逸剑

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Parquet的那些事（二）Spark中的Schema兼容问题

茅庐

03-14

1万+

本文探讨了在Spark中经常会遇到的Parquet Schema兼容的问题，分析了文件加载和表加载的细节与Schema兼容的规则。

Hive实战：将xml文件处理为txt文件，并用Hive进行微博数据分析

王某的博客

10-21

2671

一 -xml文件处理文件简述 xml处理代码遇见的问题及解决过程 i -nbsp之类的字符无法解析 ii -0xc0x11之类的字符无法解析 iii -javalangOutOfMemoryError Java heap space 二 -写到txt file工具代码io版三 -Nio版的代码四 -两种版本的效率对比五 -建表加载数据加载数据报错要加载的数据格式与目标表的格式不同查询

参与评论您还未登录，请先登录后发表或查看评论

HDFS数据导入Hive表报错

weixin_43230682的博客

08-27

2400

1、报错： Failed with exception java.io.IOException:java.lang.RuntimeException: hdfs://emr-header-1.cluster-212710:9000/warehouse/hdcdt/ods/ods_act_activity_info/dt=2020-12-10/part-m-00000 is not a Parquet file. expected magic number at tail [80, 65, 82, 49] b

Hive 查询报错：Hive is not a Parquet file

小陈陈陈陈.的博客

03-24

2261

Hive is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [48,46, 48,10]

新一代列式存储格式Parquet

最新发布

11-16

20251115_split_0_0_0 is not a Parquet file (length is too low: 4)` 表明Hive在尝试读取一个被认为是Parquet文件的数据文件时，发现该文件长度过短，不符合Parquet文件的基本长度要求，所以判定其不是一个有效的...

百万台ESP32设备管理难题破解：低成本批量部署的4大核心架构设计

!...# 1. 百万台ESP32设备管理的挑战与架构思维在构建百万级ESP32物联网系统时，首要挑战在于**设备规模带来的非线性复杂度增长**。传统单点管理模型在面对海量连接、异构网络环境和资源受限终端时迅速失效。...

hive is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [48,46, 48,10]

qq_20488317的博客

05-18

1万+

1、创建表create table if not exists yourtalle(`score` float, `pos` string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'; 2、导入数据load data local inpath "***" overwrite into table yourtable; 导入数据格式举例：1...

Spark read load Parquet Files

2301_81547508的博客

06-03

1179

【代码】Spark read load Parquet Files。

文本文件导入hive库出现问题总结

aline12的博客

05-20

819

在跑数据时碰到，某个字段的值需要过滤，范围是大概几万个值，就不能直接用枚举了，需要将数据存到一个临时表然后去读这个表先建临时表 CREATE EXTERNAL TABLE XXXX( XX string COMMENT 'XX' ) COMMENT '' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS parquet LOCATION 'XXXXX' TBLPROPERTIES ( 'parquet.compress'='SNAPPY

hive存储格式错误

weixin_44803002的博客

05-15

1316

当load数据到表中时，查询表中数据报这个错误时 Failed with exception java.io.IOException:java.lang.RuntimeException: hdfs://hadoop102:9000/warehouse/gmall/dwd/dwd_dim_date_info/date_info.txt is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [9, 48,

java spark 读取csv_Spark - 将CSV文件加载为DataFrame？

weixin_39600837的博客

02-24

753

Spark - 将CSV文件加载为DataFrame？我想在spark中读取CSV并将其转换为DataFrame并将其存储在HDFS中df.registerTempTable("table_name")我试过了：scala>valdf=sqlContext.load("hdfs:///csv/file/dir/file.csv")我得到的错误：java.lang.RuntimeEx...

工作中遇到的hive问题

weixin_46028840的博客

11-14

641

原因分析：多表关联，创建新表，关联的两个表有相同字段名的字段，hive为了区分就带上了表名前缀，导致建表字段不合法。select 查询时，识别不了字段名，抛出空指针异常。2. Union all情况下，前后2段的字段名、数据类型不匹配；查看表的存储格式，同时查看hdfs上数据文件的是什么格式？示例1：过滤掉不需要的列名(字段要用小括号包裹)验证结果是：会提示类型不匹配，不会报空指针异常。在hivesql里这样写，可能会报空指针错误。验证结果是：不会报错，能正常执行。解决方法：重跑分区数据。

Parquet存储格式和Snappy压缩方式

qq_42456324的博客

05-28

3568

一文讲透大数据列存标准格式：Parquet__Kafka_的博客-优快云博客_大数据存储格式 snappy-java两种压缩方式的区别_unknown-null的博客-优快云博客_java snappy

spark错题本

epitomizelu的专栏

04-15

9366

一，Task not serializable 原因：用了mysql的jdbc，其connect需要在各个服务器上单据创建，不能集群共享一个数据连接。下图中的driver和excutor不在同一台服务器，connection不能共享。

parquet格式_关于Parquet文件的一些问题

weixin_39963440的博客

11-29

1181

Hive无法读取Parquet

鱼归不知处

08-02

3677

查询Hive表，报错：Failed with exception java.io.IOException:parquet.io.ParquetDecodingException: Can not read value at 0 in block -1 in file hdfs://xxx:8020/user/hive/warehouse/tmp.db/table1/part-00000.snapp...

snappy is not a Parquet file什么意思

03-13

<think>好的，我现在要解决用户关于“snappy is not a Parquet file”错误的问题。首先，我需要理解这个错误发生的背景和可能的原因。用户提到在使用Snappy压缩时遇到了这个错误，可能与Parquet文件有关。根据我的知识，Parquet是一种列式存储格式，通常与不同的压缩编解码器一起使用，比如Snappy、Gzip等。错误信息指出“snappy is not a Parquet file”，这可能意味着系统在尝试读取文件时，检测到文件格式不符合预期。可能的原因有几个方面：首先，文件本身可能不是Parquet格式，但被错误地标记或读取为Parquet。例如，文件可能实际是其他格式，如ORC或Avro，但被Hive或Spark等工具指定为Parquet，导致解析失败。这时候需要确认文件的真实格式，使用file命令或查看元数据来验证。其次，Snappy压缩的Parquet文件可能没有被正确写入或配置。Parquet文件在写入时需要明确指定压缩格式，如果使用Snappy但没有正确配置编解码器，可能会导致文件头信息不正确，从而在读取时识别失败。例如，在Hive中创建表时，需要设置正确的压缩参数，如`parquet.compression`为SNAPPY。另外，不同工具或版本之间的兼容性问题也可能导致这个错误。比如，旧版本的Hadoop或Spark可能不支持某些Snappy的实现，或者Parquet文件的元数据使用了不兼容的格式。这时候需要检查各组件的版本，并确保它们兼容。接下来，我需要考虑解决方法。首先，验证文件格式是否正确。用户可以使用命令行工具如parquet-tools来检查文件元数据，确认是否是Parquet格式以及使用的压缩方式。如果发现文件格式错误，可能需要重新生成或转换文件。然后，检查写入配置。确保在生成Parquet文件时，正确设置了压缩参数。例如，在Spark中，可以通过设置`spark.sql.parquet.compression.codec`为snappy；在Hive中，设置`SET parquet.compression=SNAPPY;`。如果配置有误，重新生成文件时修正这些参数。另外，检查依赖库是否正确安装。Snappy需要本地库支持，如果环境缺少libsnappy.so或相关组件，即使配置正确，也无法读写Snappy压缩的文件。用户需要确认安装snappy库，并确保Hadoop/Spark的native库路径包含这些组件。版本兼容性也是一个关键点。用户应检查Hadoop、Hive、Spark等组件的版本是否支持Snappy与Parquet的组合。例如，某些旧版本可能存在问题，升级到较新版本可能解决。如果用户是从其他格式转换到Parquet，需要确保转换过程正确指定了压缩格式，避免使用错误的编解码器。例如，使用Hive的INSERT语句时，确保目标表设置了正确的压缩属性。最后，如果文件已损坏，可能需要从备份恢复或重新生成文件。损坏的文件无法修复，只能通过源头解决。在回答中，我需要引用相关的资料，比如引用[1]提到Hadoop优化和集群资源分配，可能涉及配置问题；引用[2]关于Hive中使用STORED AS SEQUENCEFILE和压缩存储的建议，虽然主要是关于SequenceFile，但可以引申到Parquet的压缩配置注意事项。总结可能的问题点，分步骤说明解决方法，并提醒用户检查各个配置环节和依赖项，确保环境正确配置。同时，生成相关问题，帮助用户进一步理解Parquet和压缩相关的问题。</think>关于“snappy is not a Parquet file”错误的原因及解决方法如下： ### 错误原因分析 1. **文件格式不匹配** 系统尝试读取的文件实际不是Parquet格式，但被错误声明为Parquet文件。例如： - 文件可能是其他格式（如ORC、Avro）但存储路径或元数据标记为Parquet； - 文件头信息损坏，导致无法识别为Parquet[^1]。 2. **压缩编解码器配置错误** - 使用Snappy压缩的Parquet文件需要明确指定压缩类型。若写入时未正确配置（如Hive表属性缺少`parquet.compression=SNAPPY`），文件元数据可能无法被解析[^2]； - 读取时工具未启用Snappy支持（如缺少Snappy本地库）。 3. **依赖库缺失或版本冲突** - Hadoop/Spark集群未安装Snappy的本地库（如Linux下缺少`libsnappy.so`）； - Parquet版本与Snappy编解码器不兼容（如旧版Parquet不支持特定压缩算法）。 --- ### 解决方案步骤 #### 1. 验证文件格式通过命令行工具检查文件类型： ```bash # 使用Hadoop命令检查文件头部信息 hadoop fs -cat /path/to/file | head -c 4 # 合法的Parquet文件应以"PAR1"开头 ``` 若输出非`PAR1`，说明文件不是Parquet格式，需重新生成或修正元数据。 #### 2. 检查写入配置在生成Parquet文件时，确保指定Snappy压缩： - **Spark写入示例**： ```python df.write.option("compression", "snappy").parquet("/output/path") ``` - **Hive表定义**： ```sql SET parquet.compression=SNAPPY; CREATE TABLE table_name STORED AS PARQUET AS SELECT ...; ``` #### 3. 安装Snappy依赖库在集群所有节点安装Snappy： ```bash # Ubuntu/Debian sudo apt-get install libsnappy-dev # CentOS sudo yum install snappy snappy-devel ``` 并确保Hadoop/Spark配置指向本地库路径（如`export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native:$LD_LIBRARY_PATH`）。 #### 4. 版本兼容性检查确认组件版本满足以下要求： | 组件 | 最低支持版本 | |-----------|--------------| | Parquet | 1.9.0+ | | Hadoop | 2.7.0+ | | Spark | 2.4.0+ | --- ### 示例修正代码（Hive） ```sql -- 确保表属性正确 SET hive.exec.compress.output=true; SET parquet.compression=SNAPPY; CREATE TABLE corrected_table STORED AS PARQUET AS SELECT * FROM source_table; ``` ---