Apache Hive 是怎样做基于代价的优化的？

最新推荐文章于 2025-05-19 10:04:18 发布

秦夏

最新推荐文章于 2025-05-19 10:04:18 发布

阅读量554

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ShadyXu/article/details/94593333

本文介绍了SQL查询优化器的两种类型RBO和CBO，重点阐述Hive里的CBO。Hive在0.14版本引入CBO，解决了一些RBO无法处理的问题。文中定义了代价模型，说明了计算代价的方法，还介绍通过Analyze命令获取数据属性，以及Hive利用Calcite实现CBO的方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于代价的优化器

通常，我们把 SQL 查询优化器分为两种类型：

RBO(Rule Based Optimizer)
CBO(Cost Based Optimizer)

RBO 顾名思义，就是事先定义好一系列的规则，然后去遍历这些规则做优化。

而 CBO，自然就是根据所谓的代价去做优化，代价最小的执行计划就是最好的执行计划。

RBO 固然是好的，能解决很多问题。

640?wx_fmt=png

这是上一篇文章里的例子，一个很简单的查询，对应的执行计划是这样：

640?wx_fmt=png

通过两个常见的规则转换，就能得到下面这个更好的执行计划：

640?wx_fmt=png

RBO 好不好，很好嘛，project 和 filter 都 push down 之后不就能大大减小数据量了，性能不就好了嘛。

但是 RBO 还不够好：

规则是基于经验的，经验就可能是有偏的，总有些问题经验解决不了
不太可能列出所有经验，事实上这些规则也确实是逐渐充实的

Hive 里的 CBO

Hive 在 0.14 版本引入了 CBO，典型的，由于 join 是 SQL 中非常影响性能的操作，所以引入之初就解决了下面几个大难题：

Join Ordering Optimization
Bushy Join Support
Join Simplification

很显然，我们光看名字就知道，这几个问题不是 RBO 能解决了。篇幅有限，我们只看第一类情况。

640?wx_fmt=png

这个例子来自 TPC-DS Q3，比刚才那个例子稍微复杂一点。但也就是多了一张表一起 join，再多一些过滤条件。

很显然，这个查询依然能受益于 RBO 里的 push down 规则。另外留意下，两个表过滤之后的行数是这样：

640?wx_fmt=png

下面对比下，RBO 之后的执行计划是这样：

640?wx_fmt=png

而经过 CBO 之后的执行计划是这样的：

640?wx_fmt=png

可以看到，store_sales join item 之后的结果只有 82 million 行，比默认的 store_sales join date_dim 的 14 billion 行少了一个数量级了。

不同的 join 顺序带来的性能差距是巨大的。实际的性能测试结果会更直观：

640?wx_fmt=png

640?wx_fmt=png

很显然，RBO 是没法做到这点的。没法总结出这么条规则，来判断哪个表应该放在 join 顺序的前面。

那 CBO 又是怎么做到的呢？

定义代价模型

不难看出，上面的例子中，主要是通过这么两点来判断 join 顺序的：

原始表的行数
过滤之后的行数

说白了，就是行要少，无论是原始数据的行，还是中间结果的行，越少性能越好。

那是不是就用行来衡量代价就够了呢？

没这么简单，因为影响性能的不只有行<

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄16年

50
原创

19
点赞

81
收藏

33
粉丝

关注

私信

热门文章

分类专栏

上一篇：: Apache Calcite 为什么能这么流行

下一篇：: Google 和 Netflix 就一定对吗？ -- 再谈企业文化

最新评论

记一次 HDFS NameNode GC 调优
weixin_39518252: NameNode 需要消耗非常大的堆，CMS超过16G，G1垃圾回收器在超过64G的堆之后作用就不大了，如果内存足够大，可以考虑使用Azul的C4垃圾回收看，堆大小可以支持到8T，就可以解决long gc暂停问题。
记一次 HDFS NameNode GC 调优
呼卓宇: 问题定位了，我们引用了jmx，而jmx引入Java RMI机制导致Full GC，当应用程序通过RMI发布消息或消费服务时，JVM会定期启动Full GC，确保本地未使用的对象也不会占用内存空间，即使没有在代码逻辑当中添加任何基于RMI的内容，第三方库或工具类仍然可以打开RMI端点（常见的就是JMX），如果远程连接到它，它就会使用RMI在底层发布数据。 RMI造成的问题通常是老年代剩有大量空间，但是会触发Full GC，造成stop-the-world。
记一次 HDFS NameNode GC 调优
呼卓宇: 大佬您好，通过System.gc()去触发gc这条，我理解JVM的垃圾回收是自动进行的，无须手动触发。但是在查看-gccause的时候，发现还真是System.gc()引起的，我有点不确定是不是这个原因，您当初是如何排除掉这点的呢？
漫谈分布式系统(1) -- 为什么要有分布式系统
Nick Wilde007: 好家伙，直接解答了我的疑问，感谢。
漫谈核心能力(5) -- 重点抓好，才能高效
程序猿学长: 感谢分享,学习了

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。