【Hive十五】Hive IO相关

本文介绍了Hive中与IO压缩相关的配置,包括Hadoop的io.compression.codecs属性,以及Hive的hive.exec.compress.intermediate、mapred.map.output.compression.codec等属性。讨论了不同压缩算法如Gzip、BZip2、Snappy和LZO的压缩比和速度,并指出BZip2和LZO支持并行处理。同时,详细阐述了Sequence File的压缩特点,强调其BLOCK压缩的并行处理能力,以及如何在Hive中设置使用Sequence File和Gzip进行块级压缩的步骤。

1. Hadoop配置压缩算法(Hadoop的配置属性,Hive读取core-site.xml文件中的配置,可以再hive-site.xml中配置以覆盖Hadoop中的配置)
key: io.compression.codecs
value:org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec

压缩算法压缩/解压缩的速度与压缩比之间取得一个平衡,
GZip,BZip2的压缩比高,压缩速度相对低;
Snappy,LZO的压缩比低,但是压缩解压缩的速度很高。
BZip2,LZO支持压缩文件分block后的并行处理,而GZip和Snappy则不可以。要使用GZip和Snappy,推荐使用Block压缩的Sequence File

压缩文件是否支持分割?
数据压缩成GZIP,BZIP2,Snappy或者LZO格式后,这个压缩文件如果比较大,比如1G,那么HDFS将它分成10个block(每个block是128M),那么每个分块是否支持
并行处理?

答:
1.
In text files, each line is a record, but these boundaries are obscured by GZip and Snappy.
However, BZip2 and LZO provide block-level compression, where each block has
complete records, so Hadoop can split these files on block boundaries.


Hive属性配置
1. hive.exec.compress.intermediate
表示是否

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值