奔走相告！ ClickHouse 全新构建了强大的 JSON 数据类型

ClickHouse全新JSON数据类型解析

最新推荐文章于 2025-07-10 18:59:04 发布

原创

最新推荐文章于 2025-07-10 18:59:04 发布 · 1.5k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#clickhouse #json #oracle

本文字数：8969；估计阅读时间：23 分钟

作者：Pavel Kruglov

本文在公众号【ClickHouseInc】首发

简介

JSON 已成为现代数据系统中处理半结构化和非结构化数据的首选格式。无论是在日志记录和可观测性 (observability) 应用场景、实时数据流、移动应用存储，还是机器学习管道中，JSON 以其灵活的结构，成为分布式系统中捕获和传输数据的标准格式。

在 ClickHouse，我们早已认识到无缝支持 JSON 的重要性。尽管 JSON 的结构看似简单，但要在大规模环境中高效使用它，却面临着独特的挑战。接下来，我们将简要介绍这些挑战。

挑战 1：真正的列存储

ClickHouse 是市场上最快的分析型数据库之一。要实现这样的性能水平，必须采用正确的数据组织方式。ClickHouse 作为真正的列存储数据库，将表格数据以列的形式存储在磁盘上。这样可以实现最佳的压缩效果，并通过硬件加速，快速执行向量化的列操作，如过滤和聚合。

为了让 JSON 数据也能达到同样的性能，我们需要为 JSON 实现真正的列存储方式，使 JSON 路径像数值类型等其他列类型一样，能够被高效压缩和处理（例如，向量化的过滤和聚合）。

因此，我们不想像下图所示的那样，将 JSON 文档直接存储到字符串列中，并在后续解析：

我们希望将每个唯一 JSON 路径的值以真正的列存储方式保存：

挑战 2：无需类型统一的动态数据处理

当我们能够以真正的列存储方式存储 JSON 路径后，下一个挑战是 JSON 允许相同的路径具有不同的数据类型。在 ClickHouse 中，这些不同的数据类型可能存在不兼容性，且在使用前无法预知。此外，我们需要找到一种方法来保留所有不同的数据类型，而不是将它们统一为最小共同类型。例如，如果某个 JSON 路径 a 的值是两个整数和一个浮点数，我们不希望将它们都存储为磁盘上的浮点数，如下图所示：