Hive 压缩比较

本文详细介绍了如何在Hive中设置不同的压缩配置来减少存储空间并提高查询效率。包括使用Gzip压缩算法的具体操作步骤,并对比了开启和关闭压缩前后的文件大小变化。此外,还探讨了对于自带压缩特性的文件格式如orc,Hive压缩配置的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

set hive.exec.compress.intermediate=false;
set mapred.output.compress=false;

create table a as select * from dimdate;
Table default.a stats: [numFiles=1, numRows=1188, totalSize=90068, rawDataSize=88880]
Job 0: Map: 1   Cumulative CPU: 1.88 sec   HDFS Read: 6083 HDFS Write: 90138 SUCCESS

 通过 hdfs dfs -cat /filepath  查看a 是否被压缩

 

可以看出没压缩的时候 a表有 1个文件 1188行 9k的大小 裸数据大小8k

再看压缩的

set hive.exec.compress.intermediate=true;
set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

create table a_gz as select * from dimdate;
Table default.a_gz stats: [numFiles=1, numRows=1188, totalSize=11316, rawDataSize=88880]
MapReduce Jobs Launched:
Job 0: Map: 1   Cumulative CPU: 1.31 sec   HDFS Read: 6083 HDFS Write: 11389 SUCCESS

 压缩后 大小变成了1k,而去 write的数据也从9k变成了1k

因为是压缩文件 就不能用 dfs -cat 了

所以要用 zact +filepath

 

压不压还是区别蛮大的.但是对于自带压缩的文件格式,比如orc

hive.exec.compress.output 是true或者是false 都是一样的 因为orc 默认是zilb压缩

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值