ClickHouse 核心优势的详细解析

最新推荐文章于 2025-11-24 23:04:10 发布

原创最新推荐文章于 2025-11-24 23:04:10 发布 · 838 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#clickhouse #核心优势 #学习

OLAP 专栏收录该内容

34 篇文章

订阅专栏

以下是 ClickHouse 核心优势的详细解析，帮助你深入理解它为何能在海量数据下实现极致查询性能。我们将围绕五大核心技术展开：列式存储、向量化执行引擎、数据压缩、稀疏索引、MPP 架构，并解释它们如何协同工作，成为 ClickHouse 的“速度之源”。

🔥 ClickHouse 五大核心优势详解

1. 列式存储（Column-Oriented Storage）

✅ 是什么？

传统数据库（如 MySQL）是行式存储：每条记录的所有字段连续存储。
ClickHouse 是列式存储：每个字段（列）的数据单独存储。

例如，一张表：

| id | name  | age | salary |
|----|-------|-----|--------|
| 1  | Alice | 30  | 8000   |
| 2  | Bob   | 25  | 7000   |
| 3  | Carol | 35  | 9000   |

行式存储：[1,Alice,30,8000][2,Bob,25,7000][3,Carol,35,9000]
列式存储：
id: [1,2,3]
name: ['Alice','Bob','Carol']
age: [30,25,35]
salary: [8000,7000,9000]

✅ 为什么快？

聚合查询只需读取相关列：
比如 SELECT AVG(salary) FROM table，只需要读取 salary 列，其他列完全跳过 → I/O 大幅减少。
缓存更高效：CPU 缓存中只加载需要的数据。
利于后续压缩和向量化计算。

📌 适用场景：

统计分析、报表、GROUP BY、SUM、COUNT 等操作。

2. 向量化执行引擎（Vectorized Execution Engine）

✅ 是什么？

传统数据库是“逐行处理”（row-by-row），而 ClickHouse 是“批量处理”（block-by-block），利用现代 CPU 的 SIMD（Single Instruction, Multiple Data）指令集，对一整块数据并行计算。

✅ 为什么快？

SIMD 指令：一条指令同时对多个数值进行相同操作（如加法、比较）。
- 例如：对 1000 个 salary 值求和，可以一次处理 8~16 个数（取决于 CPU 支持）。
减少函数调用开销：不是对每行调用一次函数，而是对整个数据块批量处理。
充分利用 CPU 缓存和多核：数据块连续，缓存命中率高。

📌 效果：

聚合、过滤、算术运算速度提升数倍甚至数十倍。

3. 数据压缩（Data Compression）

✅ 是什么？

由于列式存储中同一列的数据类型一致、值分布集中（如 age 多为 20~40，status 多为 ‘active’/‘inactive’），非常适合压缩。

ClickHouse 默认使用 LZ4 或 ZSTD 等高效压缩算法。

✅ 为什么快？

减少磁盘 I/O：压缩后数据体积小，读取更快。
减少内存占用：解压后仍可高效处理。
提升缓存效率：更多数据能放入内存。

📌 实际效果：

日志类数据压缩比可达 1:10，即 1TB 原始数据压缩后仅需 100GB 存储。
查询时从磁盘读取的数据量大幅减少 → 查询更快。

4. 稀疏索引（Sparse Index）

✅ 是什么？

ClickHouse 的主键索引是稀疏的，不是每行都有索引项，而是每隔一定数量的行（如每 8192 行）记录一个“标记”（mark），表示该位置的主键值。

例如：主键是 (date, city)，每 8192 行建立一个索引点。

✅ 为什么快？

轻量高效：索引体积小，内存占用少。
快速定位数据块：通过索引快速跳过不满足条件的数据块。
结合数据排序：数据按主键排序存储，稀疏索引能有效支持范围查询。

📌 工作流程：

SELECT * FROM logs WHERE date = '2024-01-01' AND city = 'Beijing'

稀疏索引定位到 date='2024-01-01' 的数据块范围；
在该范围内，再根据 city 过滤；
只扫描相关数据块，跳过其他所有数据。

⚠️ 注意：稀疏索引不能像 B+ 树那样精确跳转，但它足够快且资源消耗极低。

5. MPP 架构（Massively Parallel Processing，大规模并行处理）

✅ 是什么？

MPP 是一种分布式计算架构，多个节点并行处理各自的数据分片，最后将结果汇总。

ClickHouse 支持：

分片（Sharding）：数据水平拆分到多个节点；
复制（Replication）：保证高可用；
Distributed 表引擎：透明地将查询分发到各节点并合并结果。

✅ 为什么快？

并行计算：每个节点独立执行查询，充分利用集群算力。
本地计算：数据在哪，计算就在哪（避免大量数据传输）。
线性扩展：增加节点可线性提升查询性能。

📌 示例：

查询 1TB 数据分布在 4 个节点上：

每个节点处理 250GB；
并行执行聚合；
主节点汇总结果；
总耗时远小于单机处理 1TB。

🧩 五大优势如何协同工作？（联合加速）

想象一次查询：

SELECT city, COUNT(*), AVG(duration)
FROM user_logs 
WHERE date BETWEEN '2024-01-01' AND '2024-01-07'
GROUP BY city

MPP 架构：查询被分发到多个节点，各自处理本地分片；
稀疏索引：快速跳过非目标日期的数据块；
列式存储：只读取 date, city, duration 三列；
数据压缩：磁盘读取的数据量更小，解压后进入内存；
向量化执行：CPU 批量计算 COUNT 和 AVG，利用 SIMD 加速；
各节点返回结果，主节点合并输出。

👉 整个过程高效、低耗、极速完成。

✅ 总结：ClickHouse 的“速度公式”

极致性能 = 列式存储 × 向量化 × 高压缩 × 稀疏索引 × MPP 并行

技术	贡献
列式存储	减少 I/O，提升聚合效率
向量化执行	提升 CPU 利用率，加速计算
数据压缩	节省存储与 I/O
稀疏索引	快速跳过无关数据
MPP 架构	水平扩展，应对超大数据量