【Hive】部分基础语法/调参优化

本文概述了Hive优化的关键方法,包括减少数据量、避免数据倾斜、防止全表扫描、合并Job任务以及在代码层面的改进,如使用中间表、合理选择存储格式和JVM重用。同时讨论了数据倾斜问题的调参和Job任务的并行执行策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hive优化的核心思想:

  减少数据量(例如分区等操作)

  避免数据倾斜(例如加参数,打散key值等的操作)

  避免全表扫描(where过滤,特定分区等的操作,和减少数据量目标一致)

  减少job数(相同的on条件放在一起作为一个任务)

下面就日常工作总结出的一些基础优化点,从以下几方面分开阐述

代码层面:

  1. 考虑使用中间表进行存储,避免子查询太复杂且数据量太大。
  2. 大小表的join 不过现在hive内部进行了优化,自动视小表为驱动表
  3. 分区/分桶表的优化,避免全表扫描,提升查询效率
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值