18、Spark SQL 入门:从基础到实践

Spark SQL 入门:从基础到实践

1. Spark SQL 架构与组件

Spark SQL 的执行过程包含物理规划和代码生成两个重要阶段。

物理规划 :逻辑规划之后,使用匹配 Spark 执行引擎的物理操作符生成一个或多个物理计划,然后通过成本模型选择一个物理计划。物理规划器还会执行基于规则的物理优化,例如将投影或过滤操作合并到一个 Spark map 操作中,也可以将逻辑计划中的操作推送到支持谓词或投影下推的数据源中。

代码生成 :整个过程的最后阶段是生成可以在所有节点上执行的字节/二进制代码。由于 Spark 本质上是内存计算,受 CPU 限制,因此 Catalyst 在生成最终代码时需要格外谨慎。为了简化和提高代码生成效率,Spark 利用了 Scala 语言的准引号(quasiquotes)特性。

除了 DataFrames 和 Catalyst,Spark SQL 还提供了 SQLContext 和 HiveContext 两个组件。SQLContext 封装了 Spark 中的所有关系功能,是访问所有 Spark SQL 功能的入口点,它由现有的 SparkContext 创建。HiveContext 提供了比 SQLContext 更丰富的功能,可用于使用 HiveQL 解析器编写查询并从 Hive 表中读取数据。

2. 编写第一个 Spark SQL 作业

Spark SQL 提供了丰富的 DataFrame API,可用于加载和分析各种形式的数据集,不仅支持从 Hive、Parquet 和 RDBMS 等结构化格式加载

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值