Spark SQL----ORC文件

原创已于 2025-09-20 21:59:34 修改 · 1.4k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#spark #sql #大数据 #分布式 #apache

于 2024-06-25 07:52:18 首次发布

Spark 专栏收录该内容

70 篇文章

订阅专栏

Spark SQL----ORC文件

一、ORC实现
二、向量化Reader
三、Schema合并
四、Zstandard
五、布隆过滤器Bloom Filters
六、列式加密
七、Hive metastore ORC 表转换
八、配置
九、数据源选项

Apache ORC是一种列式格式，它有更高级的功能，如原生zstd压缩、bloom filter和列式加密。

一、ORC实现

Spark支持两种ORC实现（native和hive），由spark.sql.orc.impl控制。两种实现共享大多数功能，但设计目标不同。

native实现旨在遵循Spark的数据源行为，如Parquet。
hive实现是为遵循Hive的行为而设计的，并使用Hive SerDe。

例如，从历史上看，native实现使用Spark的native String处理CHAR/VARCHAR，而hive实现则通过Hive CHAR/VARCHAR处理。查询结果不同。从Spark 3.1.0开始，SPARK-33480通过从Spark侧支持CHAR/VARCHAR来消除这种差异。

二、向量化Reader

native实现支持向量化ORC reader，并且自Spark 2.3以来一直是默认的ORC实现。当spark.sql.orc.impl设置为native并且spark.sql.orc.enableVectorizedReader设置为true时，向量化reader用于native ORC表（例如，使用子句USING ORC创建的表）。
对于Hive ORC serde表（例如，使用子句USING HIVE OPTIONS（fileFormat ‘ORC’）创建的表），当spark.sql.hive.convertMetastoreOrc也设置为true时，将使用向量化reader，并且在默认情况下处于打开状态。

三、Schema合并

与Protocol Buffer、Avro和Thrift一样，ORC也支持schema进化（evolution）。用户可以从一个简单的模式开始，然后根据需要逐渐向该schema添加更多列。通过这种方式，用户最终可能会得到多个具有不同但相互兼容模式的ORC文件。ORC数据源现在能够自动检测这种情况并合并所有这些文件的schemas。
由于schema合并是一个相对昂贵的操作，而且在大多数情况下不是必需的，因此我们默认情况下将其关闭。你可以通过以下方式启用它

读取ORC文件时，将数据源选项mergeSchema设置为true，或者
将全局SQL选项spark.sql.orc.mergeSchema设置为true。

四、Zstandard

从Spark 3.2开始，你可以在ORC文件中利用Zstandard压缩。好处请见Zstandard。

CREATE TABLE compressed (
  key STRING,
  value STRING
)
USING ORC
OPTIONS (
  compression 'zstd'
)

五、布隆过滤器Bloom Filters

你可以控制ORC数据源的布隆过滤器和字典编码。以下ORC示例将创建bloom过滤器，并仅对favorite_color使用字典编码。要查找有关额外ORC选项的更多详细信息，请访问Apache ORC官方网站。

CREATE TABLE users_with_options (
  name STRING,
  favorite_color STRING,
  favorite_numbers array<integer>
)
USING ORC
OPTIONS (
  orc.bloom.filter.columns 'favorite_color',
  orc.dictionary.key.threshold '1.0',
  orc.column.encoding.direct 'name'
)

六、列式加密

自Spark 3.2以来，Apache ORC 1.6支持ORC表的列式加密。以下示例使用Hadoop KMS作为给定位置的密钥提供程序。有关详细信息，请访问Apache Hadoop KMS。

CREATE TABLE encrypted (
  ssn STRING,
  email STRING,
  name STRING
)
USING ORC
OPTIONS (
  hadoop.security.key.provider.path "kms://http@localhost:9600/kms",
  orc.key.provider "hadoop",
  orc.encrypt "pii:ssn,email",
  orc.mask "nullify:ssn;sha256:email"
)

七、Hive metastore ORC 表转换

当从Hive metastore ORC表读取并插入到Hive metastore ORC表时，Spark SQL将尝试使用自己的ORC支持，而不是Hive SerDe，以获得更好的性能。对于CTAS语句，仅转换未分区的Hive metastore ORC表。此行为由spark.sql.hive.convertMetastoreOrc配置控制，并且在默认情况下处于启用状态。

八、配置

Property Name	Default	Meaning	Since Version
spark.sql.orc.impl	native	ORC实现的名称。它可以是native的和hive的。native表示native ORC支持。hive是指hive中的ORC库。	2.3.0
spark.sql.orc.enableVectorizedReader	true	在native实现中启用向量化orc解码。如果为false，则在native实现中使用新的非向量化ORC reader。对于hive实现，这将被忽略。	2.3.0
spark.sql.orc.columnarReaderBatchSize	4096	要包含在一个orc 向量化reader批处理中的行数。应该小心选择这个数字，以最小化开销并避免读取数据时出现OOM。	2.4.0
spark.sql.orc.columnarWriterBatchSize	1024	orc矢量化写入一个批次中要包含的行数。应该小心选择这个数字，以最大限度地减少开销，避免写入数据时出现OOM。	3.4.0
spark.sql.orc.enableNestedColumnVectorizedReader	true	在嵌套数据类型（array, map 和 struct）的native实现中启用矢量化orc解码。如果spark.sql.orc.enableVectorizedReader设置为false，则会忽略此项。	3.2.0
spark.sql.orc.filterPushdown	true	当为true时，为ORC文件启用过滤器下推（pushdown）。	1.4.0
spark.sql.orc.aggregatePushdown	false	如果为true，则聚合将下推到ORC进行优化。支持MIN、MAX和COUNT作为聚合表达式。对于MIN/MAX，支持布尔型、整数型、浮点型和日期型。对于COUNT，支持所有数据类型。若任何ORC文件footer中缺少统计信息，则会引发异常。	3.3.0
spark.sql.orc.mergeSchema	false	当为true时，ORC数据源将合并从所有数据文件收集的schemas，否则将从随机数据文件中选择schema。	3.0.0
spark.sql.hive.convertMetastoreOrc	true	当设置为false时，Spark SQL将对ORC表使用Hive SerDe，而不是内置的支持。	2.0.0

九、数据源选项

ORC的数据源选项可以通过以下方式设置：

以下类的.option/.options方法
- DataFrameReader
- DataFrameWriter
- DataStreamReader
- DataStreamWriter
CREATE TABLE USING DATA_SOURCE处的OPTIONS子句

Property Name	Default	Meaning	Scope
mergeSchema	false	设置是否应该合并从所有ORC part-files中收集的schemas。这将覆盖spark.sql.orc.mergeSchema。默认值在spark.sql.orc.mergeSchema中指定。	read
compression	snappy	保存到文件时使用的压缩编解码器。这可以是已知的不区分大小写的缩写名之一(none、snappy、zlib、lzo、zstd和lz4)。这将覆盖orc.compress和spark.sql.orc.compression.codec。	write

其他常规选项可在“通用File Source选项”中找到。