主要是对CDH6.0.1平台,Hive的压缩进行设置。
查看Hive支持的压缩方式
set io.compression.codecs;
io.compression.codecs=
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.DeflateCodec,
org.apache.hadoop.io.compress.SnappyCodec,
org.apache.hadoop.io.compress.Lz4Codec
查看Hive默认文件类型
set hive.default.fileformat;
hive.default.fileformat=TextFile
# 其他
sequencefile 二进制可分割类型,NONE,RECORD,BLOCK三种方式,一般BLOCK
rcfile 行列结合存储方式
orcfile rcfile的升级版,建议
查看Hive中Orc和parquet默认压缩格式
set orc.compress;
set parquet.compress;
采用ORC+Snappy压缩是比较常用的格式,CDH6已经自动部署了Snappy压缩。