ClickHouse软件架构解析

最新推荐文章于 2025-06-15 12:26:45 发布

原创最新推荐文章于 2025-06-15 12:26:45 发布 · 1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#clickhouse #spring #java

大数据面试专栏收录该内容

183 篇文章

订阅专栏

ClickHouse 的软件架构是其实现卓越性能（特别是对于大规模数据分析查询）的核心。其设计采用了多种创新和针对性强的技术。以下是其关键架构组件和设计原则的概述：

列式存储 (Column-Oriented Storage)
- 核心思想： 数据按列而非按行存储在磁盘上。
- 优势：
  - 高效压缩： 同一列的数据类型相同，数据模式相似度高，压缩效果极佳（如 LZ4, ZSTD），大幅减少 I/O 和存储开销。
  - 向量化执行基础： 为按列批量处理数据（向量化）提供了天然的物理布局。
  - 减少 I/O： 查询通常只涉及少数列，列存只需读取需要的列，避免读取整行数据，极大减少磁盘 I/O 和内存占用。
  - CPU 缓存友好： 连续访问同一列的数据能更好地利用 CPU 缓存。
向量化查询执行引擎 (Vectorized Query Execution Engine)
- 核心思想： 数据处理不是逐行进行，而是按列的数据块（Block, 通常包含几千到几万行）进行批量操作。
- 优势：
  - 减少函数调用开销： 一次函数调用处理大量数据，分摊了调用开销。
  - 利用 SIMD 指令： 现代 CPU 的 SIMD 指令（如 SSE, AVX）可以在单个指令周期内对多个数据元素（一个向量）执行相同的操作（如加法、比较）。向量化引擎能有效利用 SIMD 指令，显著提升 CPU 密集型操作（如过滤、聚合、计算）的性能。
  - 更好的 CPU 流水线和缓存利用率： 连续处理大量同类型数据，更符合 CPU 的预取和缓存机制。
MergeTree 表引擎家族 (MergeTree Engine Family)
- 核心引擎： MergeTree 及其衍生引擎（如 ReplicatedMergeTree, SummingMergeTree, AggregatingMergeTree 等）是 ClickHouse 最强大和最常用的表引擎。
- 核心机制：
  - 数据分区： 表数据按用户定义的键（通常是日期）被划分为多个分区。分区是数据物理存储的最小管理单元，便于高效删除旧数据和并行查询。
  - 数据分片： 每个分区内的数据进一步按主键索引（用户定义的排序键）排序，并切割成多个物理存储单元，称为数据片段。
  - 后台合并： 后台线程会定期将小的、新写入的数据片段合并成更大的片段。合并过程会：
    - 对数据进行物理排序（按主键）。
    - 应用表引擎特定的聚合逻辑（如预聚合 Summing）。
    - 合并索引和标记文件。
    - 删除/更新旧版本数据（通过标记）。
  - 稀疏主键索引： 不是为每一行建立索引，而是每隔一定数据量（由 index_granularity 定义，默认 8192 行）记录一个主键值和一个指向数据块的标记（Mark）。这大幅减小了索引大小，使其能常驻内存，实现快速定位数据块。
  - 数据跳数索引： 在数据片段级别构建的辅助索引（如 minmax, set, bloom_filter 等），用于在查询时快速跳过不满足条件的数据块。
分布式处理 (Distributed Processing)
- 分片： 数据可以水平分布在多个服务器节点（称为分片）上。每个分片存储一部分数据。
- 复制： 每个分片可以配置多个副本（通常通过 ReplicatedMergeTree 引擎），提供数据冗余和高可用性（基于 Raft 共识算法的变种）。
- 分布式表引擎 (Distributed):
  - 一种特殊的逻辑表引擎，本身不存储数据。
  - 定义集群拓扑（哪些节点、哪些分片/副本）。
  - 当查询 Distributed 表时：
    - 它充当查询协调器。
    - 将查询分发到相关的后端分片节点（或副本）上执行。
    - 收集各个分片返回的中间结果。
    - 在协调器节点上对中间结果进行最终聚合（如果可能）后返回给客户端。
- 本地表： 在每个物理节点上实际存储数据的表（通常是 MergeTree 家族引擎的表）。Distributed 表指向这些本地表。
数据复制与高可用 (Data Replication & High Availability)
- 主要通过 ReplicatedMergeTree 表引擎实现。
- 基于 ZooKeeper 或 ClickHouse Keeper（ClickHouse 自研的 Raft 实现）来协调副本间的元数据同步和操作日志。
- 提供最终一致性（写入异步传播）和故障转移能力。
多核与并行处理 (Multi-core & Parallel Processing)
- 查询级别并行： 一个查询可以充分利用服务器上的所有 CPU 核心。
- 数据级别并行： 对于单分片查询，ClickHouse 会自动将数据片段（parts）的处理并行化到多个 CPU 核心上。
- 向量化执行： 本身就是一种数据并行（SIMD）。
- 分布式查询： 天然是跨多台机器并行执行。
实时数据摄入 (Real-time Data Ingestion)
- 高效写入： 列存格式和 LSM-Tree 思想（后台合并）使得小批量、高频率的写入非常高效。
- 支持方式：
  - INSERT 语句： 直接 SQL 插入。
  - 批量导入： INSERT SELECT, clickhouse-client。
  - 集成： 内置丰富的集成库和连接器（Kafka, MySQL, PostgreSQL, S3, HDFS 等），支持流式或批处理导入。
  - HTTP API： 通过 HTTP POST 发送数据。
数据压缩 (Data Compression)
- 在列存的基础上，默认对每列数据独立应用压缩算法（LZ4 或 ZSTD）。
- 极高的压缩比（通常 5x - 20x+）是减少存储成本和提高 I/O 效率的关键。
近似查询处理 (Approximate Query Processing)
- 提供多种近似计算函数（如 uniq, quantile, topK）和采样功能。
- 在可接受的误差范围内，极大加速对海量数据的聚合分析。
多样化的表引擎 (Diverse Table Engines)
- ClickHouse 提供了多种表引擎以适应不同场景：
  - MergeTree Family: OLAP 核心引擎。
  - Log Family (TinyLog, StripeLog, Log): 轻量级引擎，适用于小表或临时数据。
  - Integration Engines (Kafka, MySQL, JDBC, ODBC, HDFS, S3): 用于与外部系统集成，直接查询外部数据或作为数据管道。
  - Special Purpose Engines (Memory, Null, Distributed, MaterializedView, Dictionary): 用于内存表、黑洞、分布式逻辑表、物化视图、字典查询等。
核心进程与组件
- clickhouse-server: 主守护进程，负责处理查询、管理数据等核心功能。
- clickhouse-client: 命令行客户端。
- clickhouse-keeper (可选)： 用于替代 ZooKeeper 的轻量级协调服务（基于 Raft）。
- 配置文件： 主要配置位于 /etc/clickhouse-server/ (config.xml, users.xml 等)。
- 数据目录： 默认在 /var/lib/clickhouse/，存储数据文件、元数据、日志等。

总结架构图景：

层级/组件	关键技术与机制	核心优势体现
存储层	列式存储、数据分区、数据分片、高效压缩 (LZ4/ZSTD)	高压缩比、减少 I/O、缓存友好
计算引擎	向量化执行、利用 SIMD 指令、按数据块 (Block) 处理	极致 CPU 利用率、高性能计算
表引擎	MergeTree 家族 (数据分片/合并/索引)、分布式表 (`Distributed`)、复制表 (`ReplicatedMergeTree`)	高效查询、分布式扩展、高可用
索引	稀疏主键索引、数据跳数索引 (minmax, set, bloom_filter 等)	快速数据定位、减少扫描范围
分布式	分片 (Sharding)、分布式查询协调 (`Distributed` 表)、副本复制 (`ReplicatedMergeTree` + ZooKeeper/Keeper)	水平扩展、负载均衡、高可用、容错
数据处理	多核并行 (查询内/数据片段)、近似计算、实时摄入	高吞吐、低延迟、灵活接入
支持服务	ZooKeeper / ClickHouse Keeper (协调)、HTTP/接口、丰富集成库	元数据同步、易用性、生态连接