Spark SQL----ORC文件


Apache ORC是一种列式格式,它有更高级的功能,如原生zstd压缩、bloom filter和列式加密。

一、ORC实现

Spark支持两种ORC实现(native和hive),由spark.sql.orc.impl控制。两种实现共享大多数功能,但设计目标不同。

  • native实现旨在遵循Spark的数据源行为,如Parquet。
  • hive实现是为遵循Hive的行为而设计的,并使用Hive SerDe。

例如,从历史上看,native实现使用Spark的native String处理CHAR/VARCHAR,而hive实现则通过Hive CHAR/VARCHAR处理。查询结果不同。从Spark 3.1.0开始,SPARK-33480通过从Spark侧支持CHAR/VARCHAR来消除这种差异。

二、向量化Reader

native实现支持向量化ORC reader,并且自Spark 2.3以来一直是默认的ORC实现。当spark.sql.orc.impl设置为native并且spark.sql.orc.enableVectorizedReader设置为true时,向量化reader用于native ORC表(例如,使用子句USING ORC创建的表)。
对于Hive ORC serde表(例如,使用子句USING HIVE OPTIONS(fileFormat ‘ORC’)创建的表),当spark.sql.hive.convertMetastoreOrc也设置为true时,将使用向量化reader,并且在默认情况下处于打开状态。

三、Schema合并

与Protocol Buffer、Avro和Thrift一样,ORC也支持schema进化(evolution)。用户可以从一个简单的模式开始,然后根据需要逐渐向该schema添加更多列。通过这种方式,用户最终可能会得到多个具有不同但相互兼容模式的ORC文件。ORC数据源现在能够自动检测这种情况并合并所有这些文件的schemas。
由于schema合并是一个相对昂贵的操作,而且在大多数情况下不是必需的,因此我们默认情况下将其关闭。你可以通过以下方式启用它

  1. 读取ORC文件时,将数据源选项mergeSchema设置为true,或者
  2. 将全局SQL选项spark.sql.orc.mergeSchema设置为true。

四、Zstandard

从Spark 3.2开始,你可以在ORC文件中利用Zstandard压缩。好处请见Zstandard

CREATE TABLE compressed (
  key STRING,
  value STRING
)
USING ORC
OPTIONS (
  compression 'zstd'
)

五、布隆过滤器Bloom Filters

你可以控制ORC数据源的布隆过滤器和字典编码。以下ORC示例将创建bloom过滤器,并仅对favorite_color使用字典编码。要查找有关额外ORC选项的更多详细信息,请访问Apache ORC官方网站。

CREATE TABLE users_with_options (
  name STRING,
  favorite_color STRING,
  favorite_numbers array<integer>
)
USING ORC
OPTIONS (
  orc.bloom.filter.columns 'favorite_color',
  orc.dictionary.key.threshold '1.0',
  orc.column.encoding.direct 'name'
)

六、列式加密

自Spark 3.2以来,Apache ORC 1.6支持ORC表的列式加密。以下示例使用Hadoop KMS作为给定位置的密钥提供程序。有关详细信息,请访问Apache Hadoop KMS

CREATE TABLE encrypted (
  ssn STRING,
  email STRING,
  name STRING
)
USING ORC
OPTIONS (
  hadoop.security.key.provider.path "kms://http@localhost:9600/kms",
  orc.key.provider "hadoop",
  orc.encrypt "pii:ssn,email",
  orc.mask "nullify:ssn;sha256:email"
)

七、Hive metastore ORC 表转换

当从Hive metastore ORC表读取并插入到Hive metastore ORC表时,Spark SQL将尝试使用自己的ORC支持,而不是Hive SerDe,以获得更好的性能。对于CTAS语句,仅转换未分区的Hive metastore ORC表。此行为由spark.sql.hive.convertMetastoreOrc配置控制,并且在默认情况下处于启用状态。

八、配置

Property NameDefaultMeaningSince Version
spark.sql.orc.implnativeORC实现的名称。它可以是native的和hive的。native表示native ORC支持。hive是指hive中的ORC库。2.3.0
spark.sql.orc.enableVectorizedReadertrue在native实现中启用向量化orc解码。如果为false,则在native实现中使用新的非向量化ORC reader。对于hive实现,这将被忽略。2.3.0
spark.sql.orc.columnarReaderBatchSize4096要包含在一个orc 向量化reader批处理中的行数。应该小心选择这个数字,以最小化开销并避免读取数据时出现OOM。2.4.0
spark.sql.orc.columnarWriterBatchSize1024orc矢量化写入一个批次中要包含的行数。应该小心选择这个数字,以最大限度地减少开销,避免写入数据时出现OOM。3.4.0
spark.sql.orc.enableNestedColumnVectorizedReadertrue在嵌套数据类型(array, map 和 struct)的native实现中启用矢量化orc解码。如果spark.sql.orc.enableVectorizedReader设置为false,则会忽略此项。3.2.0
spark.sql.orc.filterPushdowntrue当为true时,为ORC文件启用过滤器下推(pushdown)。1.4.0
spark.sql.orc.aggregatePushdownfalse如果为true,则聚合将下推到ORC进行优化。支持MIN、MAX和COUNT作为聚合表达式。对于MIN/MAX,支持布尔型、整数型、浮点型和日期型。对于COUNT,支持所有数据类型。若任何ORC文件footer中缺少统计信息,则会引发异常。3.3.0
spark.sql.orc.mergeSchemafalse当为true时,ORC数据源将合并从所有数据文件收集的schemas,否则将从随机数据文件中选择schema。3.0.0
spark.sql.hive.convertMetastoreOrctrue当设置为false时,Spark SQL将对ORC表使用Hive SerDe,而不是内置的支持。2.0.0

九、数据源选项

ORC的数据源选项可以通过以下方式设置:

Property NameDefaultMeaningScope
mergeSchemafalse设置是否应该合并从所有ORC part-files中收集的schemas。这将覆盖spark.sql.orc.mergeSchema。默认值在spark.sql.orc.mergeSchema中指定。read
compressionsnappy保存到文件时使用的压缩编解码器。这可以是已知的不区分大小写的缩写名之一(none、snappy、zlib、lzo、zstd和lz4)。这将覆盖orc.compress和spark.sql.orc.compression.codec。write

其他常规选项可在“通用File Source选项”中找到。

Spark SQL 的性能调优是大数据处理中非常关键的环节,尤其在面对大规模数据集时。以下是一些常见的 Spark SQL 性能调优方法和最佳实践: ### 3.1 数据分区与分布 合理的数据分区策略可以显著提升查询性能。建议将数据按照业务逻辑进行分区,并使用 `partitionBy` 对数据进行重新组织。此外,避免过多的小文件或过大的分区,保持每个分区的大小在合理的范围内(通常建议在 128MB 到 256MB 之间)[^2]。 ### 3.2 使用缓存机制 对于频繁访问的数据表或中间结果,可以使用 `cache()` 或 `persist()` 方法将其缓存到内存中,从而减少磁盘 I/O 操作。根据数据的重要性及使用频率选择不同的存储级别(如 `MEMORY_ONLY`, `MEMORY_AND_DISK` 等)[^2]。 ### 3.3 优化 Join 操作 Join 是最常见的操作之一,但也容易成为性能瓶颈。可以通过以下方式优化: - **选择合适的 Join 类型**:例如 Broadcast Join、Shuffle Hash Join 和 Sort Merge Join,每种类型适用于不同场景。 - **使用 Hint 指定 Join 策略**:通过 SQL 提示(Hint)强制指定特定的 Join 策略,例如 `/*+ BROADCAST(table) */` 来触发 Broadcast Join [^1]。 - **调整 Shuffle 分区数**:通过参数 `spark.sql.shuffle.partitions` 控制 Shuffle 分区数量,以平衡任务并行度和资源消耗。 ### 3.4 合理配置资源 为 Spark 应用程序分配适当的计算资源至关重要。主要包括: - **Executor 数量与核心数**:增加 Executor 数量可以提高并行处理能力,但也要考虑集群的整体负载情况。 - **内存设置**:确保每个 Executor 获得足够的堆内存来处理数据,同时注意避免频繁的垃圾回收(GC)。如果发现 GC 频繁发生,则可能需要调整 JVM 参数或减少对 JVM 对象的依赖 [^4]。 ### 3.5 使用 Structured APIs 尽量采用 DataFrame/Dataset API 替代 RDD,因为它们提供了更高级别的抽象并且能够更好地利用 Catalyst Optimizer 进行查询优化。这些结构化接口还能有效降低内存压力 [^4]。 ### 3.6 监控与诊断 利用 Spark UI 中的 Stage 页面监控作业执行情况,识别慢任务或失败任务的原因。此外,还可以借助工具如 SparkOscope 实现跨栈监控,进一步挖掘潜在的优化点 [^3]。 ### 3.7 查询计划分析 通过 `explain()` 方法查看物理执行计划,了解实际运行时的操作顺序以及是否应用了有效的优化规则。这有助于发现不必要的 Shuffle 或者其他低效操作。 ### 3.8 文件格式选择 选择高效的文件格式也会影响整体性能。Parquet 和 ORC 等列式存储格式通常比 JSON 或 CSV 更适合大规模数据分析,因为它们支持投影下推(Projection Pushdown)和谓词下推(Predicate Pushdown),减少了读取的数据量 。 ### 3.9 动态分区裁剪(Dynamic Partition Pruning) 启用动态分区裁剪功能可以帮助过滤掉不必要的分区,特别是在大表连接小表的情况下效果明显。相关配置项包括 `spark.sql.optimizer.dynamicPartitionPruning.enabled` 和 `spark.sql.optimizer.dynamicPartitionPruning.useStats` [^1]。 ### 3.10 压缩与编码 适当开启压缩算法(如 Snappy, Gzip)可以在一定程度上减少磁盘空间占用并加快数据传输速度。另外,使用字典编码等技术也能提升某些类型的查询效率 。 以上就是关于 Spark SQL 性能调优的一些常用方法和最佳实践。实施这些策略时,请结合具体应用场景灵活运用,并持续跟踪其对系统性能的影响。 ```python # 示例代码 - 设置 Shuffle 分区数量 spark.conf.set("spark.sql.shuffle.partitions", "200") # 示例代码 - 缓存表 df.cache() # 示例代码 - 查看查询计划 df.explain() ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值