HIVE的压缩和存储格式

本文详细介绍了Hive的压缩和存储格式,包括不同阶段的压缩设置,如MAP和REDUCE输出阶段,并探讨了Hadoop支持的编解码类型。重点讲解了列式存储的ORC和Parquet格式,以及Hive的压缩格式如GZIP、LZO和SNAPPY,特别是SNAPPY在ORC文件中的应用。此外,还分享了如何在Hive中配置压缩选项和结合使用存储与压缩格式的案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

2)压缩性能比较

3)开启MAP输出阶段压缩

4)开启REDUCE输出阶段压缩,比map端压缩事儿多

四.查看HADOOP支持哪些编解码

 五、hive文件压缩在两处设置

六、存储格式和压缩格式可结合使用


在生产环境中,常用的HIVE存储格式:列式存储的orc和parquet

HIVE压缩格式:冷数据-----gzip压缩(压缩比高,压缩解压缩速度高,不可切割);

                          非冷数据------lzo(可切割)和snappy(不可切割)

案例:student表存储方式是ORC,压缩方式SNAPPY

create table student (empno int,empname string)

stored as orc

tblproperties("orc.compress"="SNAPPY")

一.HIVE存储格式

存储格式 压缩比
textfile 文本 行存储 第4
sequence 二进制 行存储 第3
orc(常用,默认zlib压缩 二进制 行列存储 第1
parquet(常用 二进制 行列存储 第2

二、HIVE的压缩方式

1)压缩方法比较 

压缩格式 工具 算法 文件扩展名 是否可切分
deflate deflate .deflate
gzip gzip deflate .gz
bzip2 bzip2 bzip2 .bz2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值