hive表常用存储格式和压缩格式

本文探讨了Hive表的存储格式与压缩方式选择,详细对比orc、parquet等格式及snappy、lzo、gzip压缩算法的优劣,为大数据处理提供高效存储方案。

hive表常用的存储格式主要包括:orc、parquet、avro、rcfile、sqeuencefile几种,存储格式一般会选择综合性能最好的orc或者parquet,这两种都是列式存储格式。压缩格式一般会选择snappy、lzo、gizp,针对不同的应用场景使用不同的压缩方式。

 

1. 压缩方式选择(hive table):

数据量大,计算性能要求不高的业务数据,一般用gzip(压缩比最高,压缩解压缩速度最慢)

计算性能要求较高,数据量不是特别大的业务数据,一般用lzo或者snappy (压缩比没有gzip高,但是压缩解压速度较快)

// snappy:
row format delimited fields terminated by '\t'
stored as orc tblproperties("orc.compress"="SNAPPY");

// lzo:
stored as INPUTFORMAT'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
          OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
location '/user/pmp_bi/test/testlog/'

 

2. 存储方式选择(hive table):

选择综合性能最优的两种存储格式:orc和parquet

hive一般用orc,spark一般用parquet,snappy配合parquet性能最高。

 

 

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值