Hive调优

本文详细探讨了Hive的各种调优技巧,包括压缩方式选择(GZIP和Snappy)、存储方式(行存储和列存储)、Fetch抓取模式、本地模式执行、join操作优化、SQL编写建议以及JVM重用等,旨在提升查询效率和资源管理.

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.Hive调优--存储和压缩方式

1.Hive压缩方式:
        压缩方式类似于windows的压缩包, 可以降低传输, 提高磁盘利用率.
    区分压缩协议好坏的参考维度:
        1. 压缩比, 即: 压缩后文件大小.
        2. 解压速度, 即: 读的速度.
        3. 压缩速度, 即: 写的速度.
    推荐使用:
        GZIP:       压缩后文件相对较小, 压缩 和 解压速度相对较慢.
        Snappy:     压缩后文件相对大一点, 压缩 和 解压速度非常快.

2. Hive表存储方式
        分为 行存储 和 列存储两种:
        行存储: TextFile(默认), SequenceFile
        列存储: ORC(推荐), Parquet
        行存储:
            优点:  select * 效率高.
            缺点:  select 列 效率低,  每列数据类型不一致, 密集度较低, 占用资源较多(CPU, 磁盘, 内存)
        列存储:
            优点: select 列 效率高,  每列数据类型一致, 密集度较高, 占用资源较少(CPU, 磁盘, 内存)
            缺点: select * 效率低.

二.Hive调优--Fetch抓取

核心点:
    在执行HiveSQL的时候, 能不转MR, 就不转MR.
设置方式:
    set hive.fetch.task.conversion=fetch抓取的模式;
Fetch抓取模式介绍:
    more:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

吃不到葡萄o

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值