Spark SQL 入门:从基础到实践
1. Spark SQL 架构与组件
Spark SQL 的执行过程包含物理规划和代码生成两个重要阶段。
物理规划 :逻辑规划之后,使用匹配 Spark 执行引擎的物理操作符生成一个或多个物理计划,然后通过成本模型选择一个物理计划。物理规划器还会执行基于规则的物理优化,例如将投影或过滤操作合并到一个 Spark map 操作中,也可以将逻辑计划中的操作推送到支持谓词或投影下推的数据源中。
代码生成 :整个过程的最后阶段是生成可以在所有节点上执行的字节/二进制代码。由于 Spark 本质上是内存计算,受 CPU 限制,因此 Catalyst 在生成最终代码时需要格外谨慎。为了简化和提高代码生成效率,Spark 利用了 Scala 语言的准引号(quasiquotes)特性。
除了 DataFrames 和 Catalyst,Spark SQL 还提供了 SQLContext 和 HiveContext 两个组件。SQLContext 封装了 Spark 中的所有关系功能,是访问所有 Spark SQL 功能的入口点,它由现有的 SparkContext 创建。HiveContext 提供了比 SQLContext 更丰富的功能,可用于使用 HiveQL 解析器编写查询并从 Hive 表中读取数据。
2. 编写第一个 Spark SQL 作业
Spark SQL 提供了丰富的 DataFrame API,可用于加载和分析各种形式的数据集,不仅支持从 Hive、Parquet 和 RDBMS 等结构化格式加载
超级会员免费看
订阅专栏 解锁全文
7234

被折叠的 条评论
为什么被折叠?



