一.Hive调优--存储和压缩方式
1.Hive压缩方式:
压缩方式类似于windows的压缩包, 可以降低传输, 提高磁盘利用率.
区分压缩协议好坏的参考维度:
1. 压缩比, 即: 压缩后文件大小.
2. 解压速度, 即: 读的速度.
3. 压缩速度, 即: 写的速度.
推荐使用:
GZIP: 压缩后文件相对较小, 压缩 和 解压速度相对较慢.
Snappy: 压缩后文件相对大一点, 压缩 和 解压速度非常快.2. Hive表存储方式
分为 行存储 和 列存储两种:
行存储: TextFile(默认), SequenceFile
列存储: ORC(推荐), Parquet
行存储:
优点: select * 效率高.
缺点: select 列 效率低, 每列数据类型不一致, 密集度较低, 占用资源较多(CPU, 磁盘, 内存)
列存储:
优点: select 列 效率高, 每列数据类型一致, 密集度较高, 占用资源较少(CPU, 磁盘, 内存)
缺点: select * 效率低.
二.Hive调优--Fetch抓取
核心点:
在执行HiveSQL的时候, 能不转MR, 就不转MR.
设置方式:
set hive.fetch.task.conversion=fetch抓取的模式;
Fetch抓取模式介绍:
more: