一、存储格式hive默认支持三种从存储格式,当然用户根据需要可以自定义存储格式。
二、压缩格式
三、例子
| 存储格式 | 优点 | 缺点 |
| SEQUENCEFILE | 可压缩可分割二进制文件 |
需要一个合并文件的过程, 且合并后的文件将不方便查看 |
| TEXTFILE |
简单 方便查看 | |
|
RCFILE |
按列查找,理论上对于宽表采用这个比较好 |
比较新,还没有广泛应用 |
二、压缩格式
| 压缩格式 | 工具 | 算法 | 文件扩展名 | 多文件 | 可分割性 |
| DEFLATE* | 无 | DEFLATE | .deflate | 不 | 不 |
| Gzip | gzip | DEFLATE | .gz | 不 | 不 |
| ZIP | zip | DEFLATE | .zip | 是 | 是,在文件范围内 |
| bzip2 | bzip2 | bzip2 | .bz2 | 不 | 是 |
| LZO | lzop | LZO | .lzo | 不 | 不 |
三、例子
- CREATE EXTERNAL TABLE src( key string, value string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '5' LINES TERMINATED BY '\n'STORED AS RCFileALTER TABLE src SET SERDEPROPERTIES ('serialization.null.format'='');
- set mapred.reduce.tasks=200;set io.sort.mb=500;set mapred.output.compression.codec=org.apache.hadoop.io.compress.BZip2Codec;INSERT OVERWRITE TABLE src_bzip2SELECT * FROM src SORT BY key;

本文详细介绍了Hive中支持的三种存储格式:SEQUENCEFILE、TEXTFILE和RCFILE的特点及适用场景,并列举了五种压缩格式及其工具、算法等关键信息。通过具体实例展示了如何设置这些存储和压缩格式。
1893

被折叠的 条评论
为什么被折叠?



