Hive sql编译过程
Hive将SQL转化为MapReduce任务,整个编译过程分为六个阶段:
- Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST Tree
- 遍历AST Tree,抽象出查询的基本组成单元QueryBlock
- 遍历QueryBlock,翻译为执行操作树OperatorTree
- 逻辑层优化器进行OperatorTree变换,合并不必要的ReduceSinkOperator,减少shuffle数据量
- 遍历OperatorTree,翻译为MapReduce任务
- 物理层优化器进行MapReduce任务的变换,生成最终的执行计划

【1】根据Antlr定义的sql语法规则,将相关sql进行词法、语法解析,转化为抽象语法树AST Tree
【2】遍历AST Tree,抽象出查询的基本组成单元QueryBlock
AST Tree生成后由于其复杂度依旧较高,不便于翻译为mapreduce程序,需要进行进一步抽象和结构化,形成QueryBlock。QueryBlock是一条SQL最基本的组成单元,包括三个部分:输入源,计算过程,输出。简单来讲一个QueryBlock就是一个子查询。QB的生成过程为一个递归过程,先序遍历 AST Tree ,遇到不同的Token 节点(理解为特殊标记),保存到相应的属性中
【3】遍历QueryBlock,翻译为执行操作树OperatorTree
Hive最终生成的MapReduce任务,Map阶段和Reduce阶段均由OperatorTree组成。逻辑操作符,就是在Map阶段或者Reduce阶段完成单一特定的操作。
基本的操作符包括TableScanOperato

本文详细介绍了Hive SQL转化为MapReduce任务的六个阶段:Antlr解析SQL成AST Tree,抽象出QueryBlock,生成OperatorTree,逻辑优化器减少数据量,转化为MapReduce任务,以及物理优化器生成最终执行计划。内容包括词法分析、语法解析、OperatorTree的构造与优化,以及各种操作如Order by、Join、Group by和Distinct的处理方式。
最低0.47元/天 解锁文章
936

被折叠的 条评论
为什么被折叠?



