0631-6.2-如何确认一个Parquet文件是否被压缩

最新推荐文章于 2024-10-12 15:28:30 发布

Hadoop_SC

最新推荐文章于 2024-10-12 15:28:30 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Hadoop实操

本文链接：https://blog.youkuaiyun.com/Hadoop_SC/article/details/101984663

本文介绍了在Hive中通过desc命令无法准确判断Parquet文件是否被压缩的问题，由于Hive的bug（HIVE-2250），命令显示结果总是false。作者通过CDH提供的parquet-tools工具，展示了如何检查Parquet文件的压缩状态，验证了压缩的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Fayson的github： https://github.com/fayson/cdhproject

推荐关注微信公众号：“Hadoop实操”，ID：gh_c4c535955d0f

1 环境准备

测试环境：

1.CDH6.2
2.集群已开启Kerberos
3.Redhat7.4

1.准备一张文本表，数据文件约6GB。

create table if not exists hive_table_test (
s1 string,
s2 string,
s3 string,
s4 string,
s5 string,
s6 string,
s7 string,
s8 string,
s9 string,
s10 string,
s11 string
) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY "," 
stored as textfile location '/fayson/hive_table_test';

hadoop fs -put hbase_data.csv /fayson/hive_table_test
select * from hive_table_test limit 1;

在这里插入图片描述

在这里插入图片描述
2.创建一张Parquet文件表，然后从文本表将数据插入过去。

create table if not exists hive_table_test_parquet (
s

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Hadoop_SC

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark数据压缩：ORC、Parquet、Avro格式对比

AI天才研究院

05-04

857

随着大数据技术的普及，PB级数据存储与计算成为常态。Spark作为主流的分布式计算引擎，其存储层的优化对整体性能至关重要。列式存储为何能提升Spark计算效率？三种格式的压缩算法如何影响存储成本与查询性能？模式演变（Schema Evolution）场景下哪种格式更灵活？如何根据业务需求选择最优存储格式？核心概念：解析三种格式的存储架构与设计理念算法原理：对比压缩编码策略与列式存储优化技术数学模型：量化压缩率、存储成本与查询性能的关系。

大数据架构中的列式存储：Parquet与ORC对比

最新发布

AI天才研究院

05-10

659

随着大数据时代的到来，数据量呈现爆炸式增长，传统的行式存储已经难以满足高效数据处理和存储的需求。列式存储作为一种新型的存储方式，能够显著提高数据处理的效率和降低存储成本。Parquet和ORC是列式存储领域的两个重要代表，本文章的目的是对这两种存储格式进行全面深入的对比分析，包括它们的原理、性能、应用场景等方面。范围涵盖核心概念、算法原理、数学模型、实际应用案例以及工具资源推荐等内容。本文将按照以下结构进行组织：首先介绍Parquet和ORC的核心概念与联系，包括它们的原理和架构；

参与评论您还未登录，请先登录后发表或查看评论

深入理解 Parquet 文件格式

雨化于画

10-12

4119

例如，部门列中"市场部"和"技术部"重复多次，字典编码只需存储这些值一次，然后在实际数据中使用索引引用，大大提高了压缩效率。例如，如果年龄列中的值都在0到63之间，可以使用6位而不是标准的32位来表示每个值，从而显著降低数据存储的大小。在数据块（Row Group）中，数据按照列存储，每一列被称为列块（Column Chunk），进一步细分为多个页面（Page），便于数据的读取和缓存。因此，Parquet 格式采用列式存储方式，旨在解决行式存储的局限性，提升大数据处理的效率。

Parquet文件格式解析

张伟的专栏

05-01

3408

介绍 Parquet是目前比较流行的大数据文件列存储格式，主流的大数据计算框架都对其有良好的支持，包括spark,hive,impala等。相对于传统的行存储模式，列存储主要有以下优点：可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的，可以使用更高效的压缩编码（例如Run Length Encoding和Delta Encoding）进一步节约存储空间。只读取需要的列，支持向量运算，能够获取更好的扫描性能。相对于其它的列式.

parquet存储linux文件,第13章关于Parquet-列存储模式

weixin_32698563的博客

04-28

700

简介Apache Parquet 是一种能够有效存储嵌套数据的列存储格式。(列式存储格式在文件大小和查询性能上表现优秀) Parquet 的突出贡献在于能够以真正的列式存储格式来保存具有深度嵌套结构的数据。参考博客-简书数据模型原子类型类型描述boolean二进制值int3232位有符号整数int6464位有符号整数int9696位有符号整数float(32位)IEEE754单精度浮点数doub...

0639-6.1.1-Spark读取由Impala创建的Parquet文件异常分析

Hadoop_SC的博客

09-21

602

Fayson的github： https://github.com/fayson/cdhproject 推荐关注微信公众号：“Hadoop实操”，ID：gh_c4c535955d0f 1 问题重现测试环境： 1.RedHat7.4 2.CDH6.1.1 3.使用root进行操作 1.使用Impala创建Parquet表并插入数据 create table test_parquet(id ...

Parquet与ORC压缩机制深度对比：选择适合你的文件格式

数据压缩技术是现代计算机科学领域的一个重要分支，它通过各种算法对数据进行编码，以达到减少存储空间和提高数据传输效率的目的。随着大数据时代的到来，数据量呈指数级增长，有效利用压缩技术已成为数据处理和存储...

Parquet文件详解

热门推荐

weixin_42704604的博客

11-28

1万+

Apache Parquet是Apache Hadoop生态系统的一种免费的开源面向列的数据存储格式。它类似于Hadoop中可用的其他列存储文件格式，如RCFile格式和ORC格式。本文将简单介绍一下Parquet文件的结构。数据首先写入文件，元数据最后写入单遍（single pass）写入。首先让我们看一下Parquet文件的格式，然后再看一下元数据。Parquet 的存储模型主要由行组（Row Group）、列块（Column Chuck）、页（Page）组成。

java 读写Parquet格式的数据的示例代码

08-29

本篇文章主要介绍了java 读写Parquet格式的数据的示例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧

用于检查 Parquet 文件的命令行工具

06-28

pqrspqrs是用于检查Parquet文件的命令行工具这是用 Rust 编写的parquet-tools实用程序的替代品使用Parquet和Arrow的 Rust 实现构建pqrs大致意思是“生锈的镶木地板工具”安装推荐方法您可以在此处下载发布二进制文件替代方法使用自制软件对于 macOS 用户，pqrs可用作自制程序。brew tap manojkarthick/pqrs brew install pqrs使用尼克斯如果你是一个nix的用户，可以安装pqrs从nixpkgsnix-env --install pqrs从源代码构建和运行确保你的机器上安装了rustc和cargo 。git clone https://github.com/manojkarthick/pqrs.git cargo build --release ./target/release/pqrs跑步以下代码段显示了可用的子命令：❯ pqrs --help pqrs 0.1.1 Manoj Karthick Apache Parquet command-line utility USAGE: pqrs [

parquet-tools.jar

02-09

查看parquet文件工具使用方式：java -jar xxx.jar usage: parquet-tools cat [option...] <input> where option is one of: --debug Enable debug output -h,--help Show this help string -j,--json Show records in JSON format. --no-color Disable color output even if supported where <input> is the parquet file to print to stdout usage: parquet-tools head [option...] <input> where option is one of: --debug Enable debug output -h,--help Show this help

Parquet格式解析

weixin_30776273的博客

01-09

542

parquet是列式存储格式，官方文档 https://parquet.apache.org/documentation/latest/ 一个Parquet文件是由一个header以及一个或多个block块组成，以一个footer结尾。header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式。文件中所有的metadata都存在于footer中。footer...

【spark】命令行查看parquet文件内容

远方不远

09-21

9654

1，进入spark shell ./spark-shell 2，执行以下操作读取parquet文件 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val parquetFile = sqlContext.parquetFile("/home/neunntest/hdfs/dataSet/2018-1-2/iris201...

如何查看.parquet文件中的内容

翩跹星子的博客

04-17

3655

File -> Open File 选中你的.parquet文件打开即可，可以在WHERE方框中输入你的查询条件。

Parquet 文件生成和读取

小强签名设计的博客

02-26

9270

这种方式的 User 实体类和上面方式的 schema.avsc 文件中的。

Parquet文件格式详解（含行、列式存储区别）

喻师傅的学习笔记

05-26

3140

行、列式文件存储详解，parquet文件详解

parquet-tools用法详解

bitcarmanlee的博客

12-11

5246

因为是压缩格式，我们无法直接查看parquet文件里的数据，这个时候parquet-tools就给我们提供了一个方便的途径对parquet文件进行查看。从上面的输出可以看出来，meta参数输出的信息，比schema参数输出信息更详尽，可以看到数据的压缩方式，是否压缩，数据的null值数量，min/max值等。对于parquet文件，第一下我们可能需要了解的就是元信息，这个时候通过schema/meta参数就可以实现查看元信息。cat命令可以查看数据里面的内容，用法与linux系统中的cat用法类似。

pyspark优化40亿数据

02-28