常见的三种文件格式
存储格式 | 存储方式 |
---|---|
textfile | 默认存储格式,行存储 |
ORCFile | 按照行分块,块按照列存储,每个块都存储有一个索引,数据压缩率非常高 |
parquet | 行式存储,很好的压缩性能,可以减少大量的表扫描和反序列化的时间 |
选择综合性能最优的两种存储格式:orc和parquet
hive一般用orc,spark一般用parquet,snappy配合parquet性能最高。
hive标准建表语句
CREATE TABLE student_orcfile_zlib (id STRING, name STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS ORCFILE TBLPROPERTIES ("orc.compress"="ZLIB");
参考:
Hive支持的文件格式与压缩算法