Spark SQL----ORC文件
Apache ORC是一种列式格式,它有更高级的功能,如原生zstd压缩、bloom filter和列式加密。
一、ORC实现
Spark支持两种ORC实现(native和hive),由spark.sql.orc.impl控制。两种实现共享大多数功能,但设计目标不同。
- native实现旨在遵循Spark的数据源行为,如Parquet。
- hive实现是为遵循Hive的行为而设计的,并使用Hive SerDe。
例如,从历史上看,native实现使用Spark的native String处理CHAR/VARCHAR,而hive实现则通过Hive CHAR/VARCHAR处理。查询结果不同。从Spark 3.1.0开始,SPARK-33480通过从Spark侧支持CHAR/VARCHAR来消除这种差异。
二、向量化Reader
native实现支持向量化ORC reader,并且自Spark 2.3以来一直是默认的ORC实现。当spark.sql.orc.impl设置为native并且spark.sql.orc.enableVectorizedReader设置为true时,向量化reader用于native ORC表(例如,使用子句USING ORC创建的表)。
对于Hive ORC serde表(例如,使用子句USING HIVE OPTIONS(fileFormat ‘ORC’)创建的表),当spark.sql.hive.convertMetastoreOrc也设置为true时,将使用向量化reader,并且在默认情况下处于打开状态。
三、Schema合并
与Protocol Buffer、Avro和Thrift一样,ORC也支持schema进化(evolution)。用户可以从一个简单的模式开始,然后根据需要逐渐向该schema添加更多列。通过这种方式,用户最终可能会得到多个具有不同但相互兼容模式的ORC文件。ORC数据源现在能够自动检测这种情况并合并所有这些文件的schemas。
由于schema合并是一个相对昂贵的操作,而且在大多数情况下不是必需的,因此我们默认情况下将其关闭。你可以通过以下方式启用它
- 读取ORC文件时,将数据源选项mergeSchema设置为true,或者
- 将全局SQL选项spark.sql.orc.mergeSchema设置为true。
四、Zstandard
从Spark 3.2开始,你可以在ORC文件中利用Zstandard压缩。好处请见Zstandard。
CREATE TABLE compressed (
key STRING,
value STRING
)
USING ORC
OPTIONS (
compression 'zstd'
)
五、布隆过滤器Bloom Filters
你可以控制ORC数据源的布隆过滤器和字典编码。以下ORC示例将创建bloom过滤器,并仅对favorite_color使用字典编码。要查找有关额外ORC选项的更多详细信息,请访问Apache ORC官方网站。
CREATE TABLE users_with_options (
name STRING,
favorite_color STRING,
favorite_numbers array<integer>
)
USING ORC
OPTIONS (
orc.bloom.filter.columns 'favorite_color',
orc.dictionary.key.threshold '1.0',
orc.column.encoding.direct 'name'
)
六、列式加密
自Spark 3.2以来,Apache ORC 1.6支持ORC表的列式加密。以下示例使用Hadoop KMS作为给定位置的密钥提供程序。有关详细信息,请访问Apache Hadoop KMS。
CREATE TABLE encrypted (
ssn STRING,
email STRING,
name STRING
)
USING ORC
OPTIONS (
hadoop.security.key.provider.path "kms://http@localhost:9600/kms",
orc.key.provider "hadoop",
orc.encrypt "pii:ssn,email",
orc.mask "nullify:ssn;sha256:email"
)
七、Hive metastore ORC 表转换
当从Hive metastore ORC表读取并插入到Hive metastore ORC表时,Spark SQL将尝试使用自己的ORC支持,而不是Hive SerDe,以获得更好的性能。对于CTAS语句,仅转换未分区的Hive metastore ORC表。此行为由spark.sql.hive.convertMetastoreOrc配置控制,并且在默认情况下处于启用状态。
八、配置
| Property Name | Default | Meaning | Since Version |
|---|---|---|---|
| spark.sql.orc.impl | native | ORC实现的名称。它可以是native的和hive的。native表示native ORC支持。hive是指hive中的ORC库。 | 2.3.0 |
| spark.sql.orc.enableVectorizedReader | true | 在native实现中启用向量化orc解码。如果为false,则在native实现中使用新的非向量化ORC reader。对于hive实现,这将被忽略。 | 2.3.0 |
| spark.sql.orc.columnarReaderBatchSize | 4096 | 要包含在一个orc 向量化reader批处理中的行数。应该小心选择这个数字,以最小化开销并避免读取数据时出现OOM。 | 2.4.0 |
| spark.sql.orc.columnarWriterBatchSize | 1024 | orc矢量化写入一个批次中要包含的行数。应该小心选择这个数字,以最大限度地减少开销,避免写入数据时出现OOM。 | 3.4.0 |
| spark.sql.orc.enableNestedColumnVectorizedReader | true | 在嵌套数据类型(array, map 和 struct)的native实现中启用矢量化orc解码。如果spark.sql.orc.enableVectorizedReader设置为false,则会忽略此项。 | 3.2.0 |
| spark.sql.orc.filterPushdown | true | 当为true时,为ORC文件启用过滤器下推(pushdown)。 | 1.4.0 |
| spark.sql.orc.aggregatePushdown | false | 如果为true,则聚合将下推到ORC进行优化。支持MIN、MAX和COUNT作为聚合表达式。对于MIN/MAX,支持布尔型、整数型、浮点型和日期型。对于COUNT,支持所有数据类型。若任何ORC文件footer中缺少统计信息,则会引发异常。 | 3.3.0 |
| spark.sql.orc.mergeSchema | false | 当为true时,ORC数据源将合并从所有数据文件收集的schemas,否则将从随机数据文件中选择schema。 | 3.0.0 |
| spark.sql.hive.convertMetastoreOrc | true | 当设置为false时,Spark SQL将对ORC表使用Hive SerDe,而不是内置的支持。 | 2.0.0 |
九、数据源选项
ORC的数据源选项可以通过以下方式设置:
- 以下类的.option/.options方法
- DataFrameReader
- DataFrameWriter
- DataStreamReader
- DataStreamWriter
- CREATE TABLE USING DATA_SOURCE处的OPTIONS子句
| Property Name | Default | Meaning | Scope |
|---|---|---|---|
| mergeSchema | false | 设置是否应该合并从所有ORC part-files中收集的schemas。这将覆盖spark.sql.orc.mergeSchema。默认值在spark.sql.orc.mergeSchema中指定。 | read |
| compression | snappy | 保存到文件时使用的压缩编解码器。这可以是已知的不区分大小写的缩写名之一(none、snappy、zlib、lzo、zstd和lz4)。这将覆盖orc.compress和spark.sql.orc.compression.codec。 | write |
其他常规选项可在“通用File Source选项”中找到。
3933

被折叠的 条评论
为什么被折叠?



