hive orc 和 parquet简单对比

ORC与Parquet:数据存储与压缩选择指南
本文探讨了Impala和PrestoDB对ORC和Parquet格式的推荐,比较了Snappy、LZO、Gzip和bzip2等压缩算法在ORC和Parquet中的应用,以及它们对Hive性能的影响。此外,还介绍了Parquet的跨语言兼容性和压缩选项。
  1. Impala推荐使用parquet格式,3.0版本之前 不支持ORC,Rcfile

  2. - Hive 0.x版本推荐使用rcfile

  3. - PrestoDB推荐使用ORC,orcFile因为元数据管理的原因对查询hive做了优化

  4. - Spark支持ORC,Parquet,Rcfile

Parquet与ORC对比

orc.compress:表示ORC文件的压缩类型,「可选的类型有NONE、ZLB和SNAPPY,默认值是ZLIB(Snappy不支持切片)

parquet. compression:默认值为 UNCOMPRESSED,表示页的压缩方式。「可以使用的压缩方式有 UNCOMPRESSED、 SNAPPY、GZP和LZO」

压缩

Snappy

Google开发的一种压缩编解码器, 用于实现高速压缩, 适当兼顾压缩率, 平衡了压缩速率和文件大小. 但是有一点, Snappy是不支持分片的, 所以它需要和容器格式相互联合使用(如SequenceFile和Avro).

LZO

压缩率和速度与Snappy相近, 由于许可协议的原因, LZO不能打包进hadoop中进行分发, 需要单独安装. Snapp

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值