Hive中Driver的流程和Hive的工作原理

最新推荐文章于 2024-01-26 22:24:06 发布

原创最新推荐文章于 2024-01-26 22:24:06 发布

· 666 阅读

·

4

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#hive #hadoop #数据仓库

先看图：

Driver：在Hive中，Driver是一个关键的组件，负责协调和管理Hive查询的执行过程

大致可以分为四步：解析->编译->优化->执行

大致流程如下：

解析：将HQL语句解析为抽象语法树

编译：将抽象语法树编译成查询块，将查询块转换为逻辑查询计划

优化：重写逻辑执行计划，优化逻辑执行计划（RBO 基于规则优化），将逻辑计划转换为物理执行计划

执行：选择最佳的join策略，优化物理执行计划（CBO 基于代价优化）

Hive的工作原理：

先看图：

大致可分为五步：

1.创建表，将表与数据文件建立映射关系

2.通过映射关系向表中导入数据，就是把数据仓库中的数据跟这张表进行关联（Load Data）

3.然后元数据就会记录到MetaStore

4.执行查询的时候在进行解析编译优化执行，在解析阶段就会去关联元数据

5.最后通过MR计算返回结果

大数据界一个小小的程序员

博客等级

码龄4年

21
原创

205
点赞

67
收藏

537
粉丝

关注

私信

热门文章

上一篇：: Yarn的工作流程

下一篇：: Hive中分区和分桶

最新评论

大数据高级阶段面试题（实时2）
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Redis的持久化机制
优快云-Ada助手: 恭喜您撰写了关于Redis持久化机制的博客！持续创作对于扩展自己的知识和帮助他人了解技术领域都非常重要。如果可能的话，下一步您可以考虑分享一些关于Redis的高级应用或者性能优化方面的内容，这将会为读者提供更多的参考价值。期待您更多精彩的文章，加油！
大数据中级阶段数仓和数据建模知识点
AK+M4: 求更，根本不够看
zookeeper中主机互相免密的过程
优快云-Ada助手: 恭喜您写了第15篇博客！能够分享关于zookeeper中主机互相免密的过程，对大家学习和工作都有很大帮助。希望您能继续坚持创作，分享更多有价值的内容。下一步，或许可以考虑分享一些实际操作中的注意事项或者技巧，让读者更容易理解和应用。谢谢您的分享！
Spark优化
优快云-Ada助手: 恭喜您写了第14篇博客，内容围绕“Spark优化”，对大家的学习和工作都有很大帮助。希望您能继续坚持创作，分享更多有价值的内容。下一步建议可以考虑结合实际案例，深入探讨Spark优化的具体方法和技巧，这样更能帮助读者理解和应用。期待您的更多精彩文章！

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据界一个小小的程序员 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。