Spark Whole Stage Codegen 解析

最新推荐文章于 2025-10-14 19:12:00 发布

原创最新推荐文章于 2025-10-14 19:12:00 发布 · 6.1k 阅读

2 ·

CC 4.0 BY-SA版权

-----Spark 专栏收录该内容

50 篇文章

订阅专栏

本文介绍了Spark中WholeStageCodegen的优化方法，包括基于规则优化如谓词下推、列裁剪和常量折叠等，以及基于代价优化如统计收集信息、代价优化策略等内容。基于代价优化部分详细讲解了统计信息的收集方式及其应用。

Spark Whole Stage Codegen 解析

一、基于规则优化

1.谓词下推

2.列裁剪

3.常量折叠

二、基于代价优化

1.统计收集信息：Statistics Collection Framework

表级字段级统计信息：Table/Column Level Statistics Collected

表级统计：

ANALYZE TABLE table-name COMPUTE STATISTICS
统计维度：
– 行数：Number of rows
– 表存储容量：Table size in bytes
统计结果示例：

字段级别统计：

ANALYZE TABLE table-name COMPUTE STATISTICS FOR COLUMNS column-name1, column-name2, ....

统计信息：
1）Numeric/Date/Timestamp type 字符型/时间类型
✓ Distinct count
✓ Max
✓ Min
✓ Null count
✓ Average length (fixed length) ✓ Max length (fixed length)

2）String/Binary type 字符串/二进制类型
✓ Distinct count 
✓ Null count
✓ Average length 
✓ Max length

统计结果示例：