SPARK Parquet嵌套类型的向量化支持以及列索引(column index)

Spark3.3.0中的Parquet优化与列索引技术解析

原创

已于 2022-07-20 18:29:28 修改 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

于 2022-07-19 12:57:28 首次发布

本文介绍了Spark3.3.0中Parquet文件格式的存储原理，包括RepetitionLevel和DefinitionLevel的概念，以及在处理嵌套类型时的向量化读取方式。在性能提升方面，列索引的引入允许更高效的过滤操作，减少了不必要的IO。Spark3.2.0开始支持Parquet列索引读取，改进了谓词下推策略，实现了基于page级别的数据过滤，进一步优化了查询性能。

背景

本文基于Spark 3.3.0
列式存储Parquet文件越来越受到工业界的青睐，在delta以及Spark中应用广泛，具体的项目见:parquet-mr

分析

Parquet格式

关于parquet的格式存储以及读取，可以参考大数据列存标准格式 - Parquet,总结一下就是：

Parquet采用类似Protobuf的协议来描述数据的Schema,字段的描述有三种（逻辑上）：

required  有且仅有一次
optional 0或1次
repeated 0次或多次

具体到物理存储，就得有Repetition Level（对应repeated）,Definition Level(对应optional) ,required是不需要的，因为字段存在就有，不存在就没有。
其实这种很好理解，因为在Dremel/Parquet中，提出的是以树状形式来组织schema中的字段，举例子：

message AddressBook {
  required string owner;
  repeated string phoneNumber;
  repeated group contacts {
    required string name;
    optional string phoneNumber;
  }
}

对应到树形结构为：

              AddressBook
          /           |               \  
         V            V                V

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

鸿乃江边鸟

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

列式存储格式: 以avro、protobuf、thrift三种方式定义schema时如何读写Parquet文件？

penriver的博客

03-19

620

本文针对什么是parquet文件，如何定义parquet文件的Schema进行讲解，进而对使用avro、protobuf、thrift三种方式定义schema下如何读写parquet进行讲解并提供源代码示例。

Spark数据压缩：ORC、Parquet、Avro格式对比

AI天才研究院

05-04

1106

随着大数据技术的普及，PB级数据存储与计算成为常态。Spark作为主流的分布式计算引擎，其存储层的优化对整体性能至关重要。列式存储为何能提升Spark计算效率？三种格式的压缩算法如何影响存储成本与查询性能？模式演变（Schema Evolution）场景下哪种格式更灵活？如何根据业务需求选择最优存储格式？核心概念：解析三种格式的存储架构与设计理念算法原理：对比压缩编码策略与列式存储优化技术数学模型：量化压缩率、存储成本与查询性能的关系。

参与评论您还未登录，请先登录后发表或查看评论

parquet-index：Parquet表的Spark SQL索引

01-28

实木复合地板指数 Parquet表的Spark SQL索引总览包允许为Parquet表创建索引（作为和），以减少在Spark SQL中用于几乎交互式分析或点查询时的查询延迟。它设计用于表不经常更改但经常用于查询的用例，例如使用Thrift JDBC / ODBC服务器。建立索引后，架构和文件列表（包括分区）将自动从索引元存储中解析，而不是每次创建数据源时都推断架构。项目是实验性的。欢迎任何反馈，问题或PR。文档反映了master分支中的更改，有关特定版本的文档，请选择相应的版本标签或分支。元商店 Metastore保留有关所有索引表的信息，并且可以在本地文件系统或HDFS（请参阅下面的可用选项）上创建，并支持索引的内存中高速缓存（第一次扫描后）。每个创建的索引都包括不同的统计信息（最小/最大/空），以及可选的是，对索引列的列过滤器统计信息（例如，bloom过滤器）。支持的谓词当提供的谓词包含一个或多个带索引列的过滤器时，将自动启用索引进行扫描。如果没有在索引列上提供过滤器，则使用常规扫描，但具有已解决的分区和架构的优势。分区修剪后会应用最小值/最大值统计信

物化列：字节为解决 Spark 嵌套列查询性能低下的优化

过往记忆大数据

12-13

1092

本文来自11月举办的Data + AI Summit 2020（原 Spark+AI Summit），主题为《Materialized Column- An Efficient Wa...

spark 表关联 java_spark 2.4.0将嵌套型JavaBean和复杂数据类型注册为表的验证

weixin_36470210的博客

02-27

378

SparkSQL在日常的数据开发过程中占据着重要的地位，面对日益复杂的需求，需要建立复杂的数据结构，在将嵌套型JavaBean和复杂数据结构如Map等注册为table，以支持化腐朽为神奇，将复杂的数据结构转化为天下大同的sql语句，使得spark更加亲民。废话不多说，还是以代码实测敬上。前戏走起，首先创建一个简单的JavaBeanpublicstaticclassPointimplemen...

Spark高级操作之json复杂和嵌套数据结构的操作

weixin_49165958的博客

11-19

796

一，基本介绍本文主要讲spark2.0版本以后存在的Sparksql的一些实用的函数，帮助解决复杂嵌套的json数据格式，比如，map和嵌套结构。Spark2.1在spark 的Structured Streaming也可以使用这些功能函数。下面几个是本文重点要讲的方法。 A),get_json_object() B),from_json() C),to_json() D),explode() E),selectExpr() 二，准备阶段首先，创建一个没有任何嵌套的JSon Schema import

提升Spark SQL查询效率的利器：parquet-index

gitblog_00080的博客

06-18

446

提升Spark SQL查询效率的利器：parquet-index 项目介绍 parquet-index 是一个为 Parquet 表创建索引的 Spark SQL 插件，旨在减少查询延迟，特别适用于需要频繁查询但数据更新不频繁的场景。通过为 Parquet 表创建索引，parquet-index 能够显著提升查询性能，尤其是在使用 Thrift JDBC/ODBC 服务器进行交互式分析或点查询时。...

列存格式详解：Parquet / ORC / CarbonData 技术原理、对比与应用选型

AI天才研究院

04-15

478

格式核心优势主要劣势最佳应用场景Parquet嵌套数据支持、生态系统广泛、跨平台兼容性点查询性能较弱、不支持更新删除批处理分析、复杂嵌套数据、跨平台数据交换ORC高压缩率、内置索引、Hive优化嵌套数据支持较弱、生态系统相对局限Hive查询、存储敏感场景、ETL管道CarbonData多维索引、更新删除支持、OLAP优化配置复杂、资源消耗较高OLAP多维分析、实时数据仓库、混合查询负载。

大数据架构中的列式存储：Parquet与ORC深度对比

最新发布

大数据洞察的博客

05-22

1099

本技术分析旨在为大数据工程师和架构师提供Parquet与ORC格式的深度对比，覆盖从存储原理到查询优化的全链路技术细节，帮助读者理解如何根据具体业务场景选择最佳存储格式。文章将从存储原理、算法实现、查询优化、生态兼容四个维度展开对比，包含5个核心性能测试案例和3种典型业务场景分析。列块(Column Chunk)：列式存储中单个列的连续数据单元行组(Row Group)：Parquet中数据水平划分的逻辑单元Stripe：ORC文件的基本存储单元，包含数据、索引和元数据向量化处理。

[Spark版本更新]--Spark-2.4.0 发布说明

欢迎来到我的博客，一起探索代码里的世界！

11-09

7090

2018-11-02 Apache Spark 官方发布了 2.4.0版本，以下是 Release Notes，供参考： Sub-task [ SPARK-6236 ] - 支持大于2G的缓存块 [ SPARK-6237 ] - 支持上传块> 2GB作为流 [ SPARK-10884 ] - 支持针对回归和分类相关模型的单实例预测 [ SPARK-11239 ] - 用于ML线性...

parquet

stable_zl的博客

01-15

901

本文介绍了parquet的设计与实现，以及和orc的对比

Uber 应用分享 | 使用 Parquet Page Index 加速 Presto 查询

u012181546的博客

12-01

660

该值在列块统计范围 [-100, 1000] 内，因此对于读取的判断为 “yes”，但对于所有页统计信息而言，由于所有的范围都不包含要查找的值 “700”，因此读取的判断结果为 “No”, 跳过整列数据，不予读取。值得注意的是，我们测试用的 Presto 查询在经过排序的列上使用 filter，例如：WHERE foo = bar，其中 foo 列是有序的，这也是 Parquet Page Index 降低读取量效果最显著的地方，如果不对 filter 依赖的列数据进行排序，则收益可能降低。

Uber应用分享 | 使用 Parquet Page Index 加速 Presto 查询

Alluxio的博客

12-28

837

该值在列块统计范围 [-100, 1000]内，因此对于读取的判断为“yes”，但对于所有页统计信息而言，由于所有的范围都不包含要查找的值“700”，因此读取的判断结果为“No”, 跳过整列数据，不予读取。值得注意的是，我们测试用的Presto查询在经过排序的列上使用filter，例如：WHERE foo = bar，其中 foo 列是有序的，这也是 Parquet Page Index 降低读取量效果最显著的地方，如果不对 filter 依赖的列数据进行排序，则收益可能降低。

parquet 简介

justlpf的专栏

04-28

1160

参考文章：parquet 简介 Parquet原理【2019-05-29】Parquet 简介 Apache Parquet是一种能够有效存储嵌套数据的列式存储格式。面向分析型业务的列式存储格式由 Twitter 和 Cloudera 合作开发，2015 年 5 月从 Apache 的孵化器里毕业成为 Apache 顶级项目。 Parquet源码 :https://githu...

Parquet-Index 项目常见问题解决方案

gitblog_00919的博客

11-15

934

Parquet-Index 项目常见问题解决方案项目基础介绍 Parquet-Index 是一个用于 Spark SQL 的索引工具，旨在为 Parquet 表创建索引，以减少查询延迟。该项目适用于那些不经常更改但频繁用于查询的 Parquet 表，尤其是在使用 Thrift JDBC/ODBC 服务器进行交互式分析或点查询时。Parquet-Index 通过创建索引元数据存储来加速查询，避免每...

hive中使用parquet+lzo+index

weixin_39182877的博客

03-09

2335

准备工作：yum -y install lzo-devel zlib-devel gcc autoconf automake libtool（1）安装LZOwget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gztar -zxvf lzo-2.06.tar.gzcd /root/lzo-2.06./config...

Spark——Spark/Hive向量化查询执行原理分析（Vectorization Query Execution）

aof

11-21

5664

https://towardsdatascience.com/apache-hive-optimization-techniques-2-e60b6200eeca