SparkSQL架构工作原理及流程解析,spark sql从shark发展而来,Shark为了实现Hive兼容,在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑。

Spark SQL兼容Hive,因为Spark SQL架构与Hive底层结构相似,Spark SQL复用了Hive提供的元数据仓库(Metastore)、HiveQL、用户自定义函数(UDF)以及序列化和反序列工(SerDes),深入了解Spark SQL底层架构:

Spark SQL架构
Spark SQL架构与Hive架构相比除了把底层的MapReduce执行引擎更改为Spark还修改了Catalyst优化器,Spark SQL快速的计算效率得益于Catalyst优化器。从HiveQL被解析成语法抽象树起,执行计划生成和优化的工作全部交给Spark SQL的Catalyst优化器进行负责和管理。
Catalyst优化器是一个新的可扩展的查询优化器,它是基于Scala函数式编程结构,Spark SQL开发工程师设计可扩展架构主要是为了在今后的版本迭代时,能够轻松地添加新的优化技术和功能,尤其是为了解决大数据生产环境中遇到的问题(例如,针对半结构化数据和高级数据分析),另外,Spark作为开源项目,外部开发人员可以针对项目需求自行扩展Catalyst优化器的功能。Spark SQL的工作原理图:

Spark SQL从Shark发展而来,兼容Hive并使用Catalyst优化器提升效率。其工作流程包括:创建SparkSession、SQL解析、Analyzer绑定逻辑计划、Optimizer优化、SparkPlanner生成物理计划、CBO选择最佳计划,最后执行Physical Plan返回结果。Catalyst优化器是基于Scala的可扩展查询优化器,允许外部扩展。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



