Hive中ORC文件默认压缩算法

原创于 2025-08-28 13:16:44 发布 · 365 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #数据仓库

大数据同时被 3 个专栏收录

277 篇文章

订阅专栏

Hadoop

52 篇文章

订阅专栏

hive

39 篇文章

订阅专栏

在 Apache Hive 中，ORC 文件的默认压缩算法是 ZLIB。

不过，这个答案需要一些更详细的解释，因为默认值可能会受到不同因素的影响。

详细说明

核心默认值：ZLIB
ORC 格式在设计之初就将 ZLIB 作为其默认的压缩算法。这是一个在压缩率和压缩/解压速度之间取得了很好平衡的算法。它比 SNAPPY 的压缩率更高（文件更小），但压缩速度会稍慢一些。
Hive 配置的影响
虽然 ORC 的默认是 ZLIB，但 Hive 可以通过参数 orc.compress 来全局设置创建 ORC 表时使用的压缩算法。你可以在 Hive 会话中通过以下命令查看当前设置：
```
SET orc.compress;
```
输出可能会是：
orc.compress=ZLIB

即使你没有显式地设置过这个参数，它通常也会默认为 ZLIB。
表级和会话级覆盖
你可以在不同级别指定压缩算法，优先级从高到低为：
- 建表时指定 (最高优先级)：在创建表时直接指定压缩方式。
- 会话级：在查询前使用 SET 命令临时改变 orc.compress 的值。
- Hive 配置 (默认)：即全局的 orc.compress 设置。
示例：建表时指定使用 SNAPPY 压缩
```
CREATE TABLE my_orc_table (
  ...
)
STORED AS ORC
TBLPROPERTIES ("orc.compress" = "SNAPPY");
```
可用的压缩算法
ORC 文件支持多种压缩算法，常见的包括：
- NONE：不压缩。
- ZLIB：默认算法，高压缩率，速度适中。
- SNAPPY：压缩速度很快，但压缩率不如 ZLIB。适合需要快速读写、对磁盘空间要求不极致的场景。
- LZO：类似 Snappy，但需要单独安装扩展。
- ZSTD：较新的算法，旨在提供比 ZLIB 更高的压缩率和与 Snappy 相当的速度，是很多新项目的推荐选择。注意： 需要你的 Hadoop 环境支持该编解码器。

如何确认一个已存在的 ORC 文件的压缩格式？

你可以使用 Hive 提供的 orc-tools 工具来查看 ORC 文件的元数据，其中就包括压缩格式。

首先找到 ORC 文件在 HDFS 上的路径，然后使用以下命令：

# 假设你的文件在 hdfs 上
hadoop jar /path/to/orc-tools-*.jar meta hdfs://path/to/your/file.orc

# 或者如果文件在本地
java -jar /path/to/orc-tools-*.jar meta /local/path/to/file.orc

在输出的 “Stripe Statistics” 部分，你可以看到 Compression 字段，例如：
Compression: ZLIB

总结

方面	说明
默认压缩	ZLIB
配置参数	`orc.compress`
常用选项	`NONE`, `ZLIB`, `SNAPPY`, `LZO`, `ZSTD`
如何指定	在 `TBLPROPERTIES` 中设置 `"orc.compress" = "ALGORITHM"`
如何查看	使用 `orc-tools` 工具的 `meta` 命令