-
Impala推荐使用parquet格式,3.0版本之前 不支持ORC,Rcfile
-
- Hive 0.x版本推荐使用rcfile
-
- PrestoDB推荐使用ORC,orcFile因为元数据管理的原因对查询hive做了优化
-
- Spark支持ORC,Parquet,Rcfile
Parquet与ORC对比


orc.compress:表示ORC文件的压缩类型,「可选的类型有NONE、ZLB和SNAPPY,默认值是ZLIB(Snappy不支持切片)
parquet. compression:默认值为 UNCOMPRESSED,表示页的压缩方式。「可以使用的压缩方式有 UNCOMPRESSED、 SNAPPY、GZP和LZO」
压缩
Snappy
Google开发的一种压缩编解码器, 用于实现高速压缩, 适当兼顾压缩率, 平衡了压缩速率和文件大小. 但是有一点, Snappy是不支持分片的, 所以它需要和容器格式相互联合使用(如SequenceFile和Avro).
LZO
压缩率和速度与Snappy相近, 由于许可协议的原因, LZO不能打包进hadoop中进行分发, 需要单独安装. Snapp
ORC与Parquet:数据存储与压缩选择指南

本文探讨了Impala和PrestoDB对ORC和Parquet格式的推荐,比较了Snappy、LZO、Gzip和bzip2等压缩算法在ORC和Parquet中的应用,以及它们对Hive性能的影响。此外,还介绍了Parquet的跨语言兼容性和压缩选项。
最低0.47元/天 解锁文章
3138

被折叠的 条评论
为什么被折叠?



