Hive优化实战经验 | 一文总结完

目录

1 表层面

1.1 利用分区表优化

1.2 利用分桶表优化

1.3 选择合适的文件存储格式

1.4 选择合适的压缩格式

2 HQL层面优化

2.1 执行计划

2.1 列、行、分区裁剪

2.2 谓词下推

2.3 合并小文件

2.4 合理设置MapTask并行度

2.5 合理设置ReduceTask并行度

2.6 Join优化

2.7 CBO优化

2.8 Group By优化

2.9 Order By优化

2.10 Count Distinct 优化

2.11 怎样写in/exists语句

2.12 使用 vectorization 矢量查询技术

2.13 多重插入模式

2.14 启动中间结果压缩

3、Hive架构层面

3.1 启用本地抓取(默认开启)

3.2 本地执行优化

3.3 JVM重用

3.4 并行执行

3.5 推测执行

3.6 Hive严格模式

4 数据倾斜

4.1 不同数据类型关联产生数据倾斜

4.2 空值过滤

4.3 group by

4.4 map join

4.5 开启数据倾斜是负载均衡

5 调优方案

5.1 日志表和用户表做链接

5.2 位图法求连续七天发朋友圈的用户


1 表层面

1.1 利用分区表优化

分区表 是在某一个或者几个维度上对数据进行分类存储,一个分区对应一个目录。如果筛选条件里有分区字段,那么 Hive 只需要遍历对应分区目录下的文件即可,不需要遍历全局数据,使得处理的数据量大大减少,从而提高查询效率。

也就是说:当一个 Hive 表的查询大多数情况下,会根据某一个字段进行筛选时,那么非常适合创建为分区表,该字段即为分区字段。

CREATE TABLE page_view(viewTime INT,  userid BIGINT, page_url STRING,  referrer_url STRING, ip STRING COMMENT 'IP Address of the User')PARTITIONED BY(date STRING, country STRING)ROW FORMAT DELI
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值