Hive优化实战经验 | 一文总结完

莫叫石榴姐

已于 2024-09-06 14:00:39 修改

阅读量1.4k

点赞数 2

分类专栏： # Hive 实战技术文章标签：大数据 hive

于 2020-12-29 15:16:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/godlovedaniel/article/details/111914989

版权

Hive 实战技术专栏收录该内容

70 篇文章 ¥19.90 ¥99.00

订阅专栏

目录

1.1 利用分区表优化

1.2 利用分桶表优化

1.3 选择合适的文件存储格式

1.4 选择合适的压缩格式

2 HQL层面优化

2.1 执行计划

2.1 列、行、分区裁剪

2.2 谓词下推

2.3 合并小文件

2.4 合理设置MapTask并行度

2.5 合理设置ReduceTask并行度

2.8 Group By优化

2.9 Order By优化

2.10 Count Distinct 优化

2.11 怎样写in/exists语句

2.12 使用 vectorization 矢量查询技术

2.13 多重插入模式

2.14 启动中间结果压缩

3、Hive架构层面

3.1 启用本地抓取（默认开启）

3.2 本地执行优化

3.4 并行执行

3.5 推测执行

3.6 Hive严格模式

4.1 不同数据类型关联产生数据倾斜

4.2 空值过滤

4.5 开启数据倾斜是负载均衡

5.1 日志表和用户表做链接

5.2 位图法求连续七天发朋友圈的用户

1 表层面

1.1 利用分区表优化

分区表是在某一个或者几个维度上对数据进行分类存储，一个分区对应一个目录。如果筛选条件里有分区字段，那么 Hive 只需要遍历对应分区目录下的文件即可，不需要遍历全局数据，使得处理的数据量大大减少，从而提高查询效率。

也就是说：当一个 Hive 表的查询大多数情况下，会根据某一个字段进行筛选时，那么非常适合创建为分区表，该字段即为分区字段。

CREATE TABLE page_view(viewTime INT,  userid BIGINT, page_url STRING,  referrer_url STRING, ip STRING COMMENT 'IP Address of the User')PARTITIONED BY(date STRING, country STRING)ROW FORMAT DELI

了解本专栏

莫叫石榴姐

博客等级

码龄11年

680
原创

8060
点赞

9055
收藏

3万+
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Oozie同步数据到MYSQL任务报错：Host ‘XXX‘ is blocked because of many connection errors解决方案

下一篇：: SparkSQL代码开发模板

最新评论

SQL面试提问：如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率
莫叫石榴姐: 两种方法都可以实现。累计值环比，用关联形式不容易出错，稍微好一点，一般环比指的月环比，周环比等，是一个连续序列。这种累计值，有的产品会提这样需求，有点不符合概念，稍微复杂一点，如果对于月末比如六月份30天，5月份31天，就存在对不上情况(有的到了月末处理方法是自动转成月环比)，lag其实也可以实现，就是判断复杂一些。另外存在有的日期没有业务数据的情况，一般数仓处理方法就是用时间维度表做主表关联数据表补齐时间维度，再用lag函数就不会有问题。
SQL面试提问：如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率
莫叫石榴姐: 两种方法都可以实现。累计值环比，用关联形式不容易出错，稍微好一点，一般环比指的月环比，周环比等，是一个连续序列。这种累计值，有的产品会提这样需求，有点不符合概念，稍微复杂一点，如果对于月末比如六月份30天，5月份31天，就存在对不上情况(有的到了月末处理方法是自动转成月环比)，lag其实也可以实现，就是判断复杂一些。另外存在有的日期没有业务数据的情况，一般数仓处理方法就是用时间维度表做主表关联数据表补齐时间维度，再用lag函数就不会有问题。
SQL面试提问：如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率
heheha_zj: 石榴姐，如果出现，在业务中，如果出现环比计算为截止到当前日期的环比比如，目前为9号，那就是 5月份1-9 和 6月份 1-9的环比，只能通过自连接的方式吧，还有就是假如5月份没有数据，那我们使用开窗函数的话，环比数据应该不对吧，除非保证上月一定会存在数据
正则表达式元字符总结
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
SQL高级技巧：如何准确求近30天指标？
莫叫石榴姐: 那样属于硬编码，这个是你提前知道是这样，如果过段时间变了呢？

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。