ClickHouse表引擎Distributed详解

最新推荐文章于 2025-10-27 09:09:45 发布

原创最新推荐文章于 2025-10-27 09:09:45 发布 · 1.2w 阅读

12 ·

CC 4.0 BY-SA版权

ClickHouse 专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了ClickHouse的Distributed表引擎，它用于分布式查询且不存储数据，利用索引自动并行读取。内容包括Distributed表引擎的参数解析，如cluster_name、database、table和sharding_key，并通过实例展示了如何创建和使用Distributed表，包括数据的分片和插入机制。

一：Distributed介绍

分布式引擎，本身不存储数据，但可以在多个服务器上进行分布式查询。读是自动并行的。读取时，远程服务器表的索引（如果存在）会被使用。

Distributed(cluster_name, database, table, [sharding_key])

参数解析：

cluster_name：服务器配置文件中的集群名，在/etc/metrika.xml中配置的。具体配置见前文。

database：数据库名。

table：表名。

sharding_key：数据分片键。

二：Distributed使用

1. 在三台机器上分别创建一个表t。

create table t(id UInt16, name String) engine=TinyLog;

2. 在三台机器的t表中插入一些数据。

insert into t(id, name) values(1, 'zs');
insert into t(id, name) values(2, 'ls');

3. 在192.168.44.129上创建分布式表。

create table dis_table(id UInt16, name String) engine=Distributed(clickhouse_cluster, default, t, id);

4. 查看结果。

可以看到，三台机器的数据都拿到了。

5. 向分布式表插入数据。

insert into dis_table(id, name) values(3, 'aa');
insert into dis_table(id, name) values(4, 'bb');

查看结果：

插入机制是根据指定的分片键id，对插入的id进行哈希计算，然后放到分片里面。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq1663443650

关注关注

11
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

ClickHouse分布式表Distributed实操

探索大数据世界 - 深入解析数据存储、分布式计算与人工智能

07-17

3668

ClickHouse分布式表Distributed实操

ClickHouse表引擎MergeTree详解

y1人丢幸福的博客

03-03

2466

一：MergeTree简介 MergeTree（合并树）及该系列（*MergeTree）是ClickHouse中最强大的表引擎。 MergeTree引擎的基本原理如下：当你有巨量数据要插入到表中时，你要高效地一批批写入数据片段，并希望这些数据片段在后台按照一定的规则合并。相比在插入时不断修改（重写）数据进行存储，这种策略会高效很多。它的特点如下： ...

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

W_gan05 2020.05.12
请问下boolean怎么应用呢？比如在建表时指定字段只能取值1和0

Clickhouse --- Distributed引擎

谷家舟

07-17

3280

Distributed 原理解析 Distributed表引擎是分布式表的代名词，不存储任何数据，只是作为代理，能够自动路由到集群中的各个节点，所以其需要和其他的表引擎一起工作。一张分片表由两部分组成：本地表：通常用_local结尾，主要承载数据。分布式表：通常用_all结尾，其与本地表形成一对多的映射关系，通过分布式表可以操作多张本地表。 1 定义形式一张Distributed表引擎的定义形式如下： ENGINE = Distributed(cluster, database, table,

Clickhouse分布式表引擎（Distributed）查询核心原理解析

大数据开发、JAVA开发、人工智能AI

04-05

2101

Clickhouse分布式表引擎（Distributed）查询核心原理解析

Java实现小程序与App微信授权完整解决方案

最新发布

weixin_36474001的博客

10-27

833

微信授权基于OAuth2.0协议实现，旨在保障用户身份安全的前提下，实现第三方应用对用户基本信息的有限访问。其核心流程通过“授权码模式”（Authorization Code）完成，客户端获取临时code后，由服务端与微信服务器交互换取用户唯一标识OpenID和会话密钥SessionKey。该机制有效隔离了敏感凭证的前端暴露风险，符合现代安全架构设计原则。整个过程依托HTTPS加密传输，确保通信链路安全。

Clickhouse分布式表引擎（Distributed）写入核心原理解析

大数据开发、JAVA开发、人工智能AI

04-05

3412

Clickhouse分布式表引擎（Distributed）写入核心原理解析

ClickHouse的Distributed表引擎

lidepan的博客

08-18

1413

ClickHouse的distributed表引擎及集群搭建

ClickHouse之分布式表引擎Distributed

bboy66的博客

04-13

775

ClickHouse之数据分片

ClickHouse 分布式原理：Distributed引擎

凌桓丶的博客

05-26

3172

文章目录Distributed引擎分布式写入流程数据写入分片副本复制数据分布式查询流程多副本的路由规则多分片查询的流程使用Global优化分布式子查询 Distributed引擎 Distributed表引擎是分布式表的代名词，它自身不存储任何数据，而是作为数据分片的透明代理，能够自动路由数据至集群中的各个节点，所以Distributed表引擎需要和其他数据表引擎一起协同工作。 ClickHouse并不像其他分布式系统那样，拥有高度自动化的分片功能。ClickHouse提供了本地表（Local Table

ClickHouse表详解

ytp552200ytp的博客

03-16

4679

ClickHouse表详解

ClickHouse--04--数据库引擎、Log 系列表引擎、 Special 系列表引擎(Distributed 分布式引擎)

时光里的博客

02-13

2046

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档。

Clickhouse Distributed分布式表引擎的基本介绍和使用说明

Bulut0907

07-08

6882

目录1. 分布式的本地表1.1 基本语法1.2 分布式的创建本地表1.3 分布式的删除本地表2. Distributed表2.1 创建Distributed表2.2 删除分布式表2.3 Distributed表其它语法3. Distributed表的增删改查3.1 insert3.2 select3.3 分布式本地表mutation3.3 分布式本地表delete Clickhouse的集群部署可以参考我的Clickhouse版本21.6.5.37的分片和副本分布式安装 Distributed表需要和其它

ClickHouse分布式查询和分布式表

互联网知识分享

09-16

1624

用户在查询分布式表时，系统会自动将查询请求发送给包含所需数据的分片，并通过合并分片的查询结果返回给客户端。分布式引擎负责将查询转发到分布式表的所有分片，并合并分片的查询结果返回给客户端。分片键决定了分布式表的分片方式，直接影响查询的性能和分布式查询的负载均衡。通过上述案例，可以看出分布式表和本地表的创建方式类似，但关键区别在于分布式表使用了分布式引擎和分片键参数，以实现数据的分布式存储和分布式查询。：分布式引擎决定了如何将查询请求发送给分布式表的各个分片，以及如何合并分片的查询结果。，并插入了一些数据。

Clickhouse 分布式表&本地表详解

奔跑的蜗牛的博客

01-14

4602

Clickhouse的表分为两种一个逻辑上的表, 可以理解为数据库中的视图, 一般查询都查询分布式表. 分布式表引擎会将我们的查询请求路由本地表进行查询, 然后进行汇总最终返回给用户.实际存储数据的表。

ClickHouse复制表、分布式表机制与使用方法

热门推荐

LittleMagic's Blog

04-29

1万+

Replication & Sharding 在ClickHouse文集的第一篇文章中，笔者介绍了ClickHouse高可用集群的配置方法，并且提到：分布式存储要保证高可用，就必须有数据冗余——即副本（replica）。ClickHouse依靠ReplicatedMergeTree引擎族与ZooKeeper实现了复制表机制，成为其高可用的基础。另外，笔者也提到，ClickHouse像El...

clickhouse 3节点Distributed架构部署

jisen_huang的专栏

03-21

721

/etc/hosts 192.168.1.14 ch14 192.168.1.15 ch15 192.168.1.16 ch16 zoo.cfg [root@ch14 ~]# cat /home/i2/zookeeper/conf/zoo.cfg tickTime=2000 initLimit=10 syncLimit=5 dataDir= /home/i2/zookeeper/data/zookeeper dataLogDir= /home/i2/zookeeper/

Distributed表引擎Insert和Select流程

style_boy的博客

06-07

1127

ClickHouse依靠Distributed引擎实现了Distributed（分布式）表机制，在所有分片（本地表）上建立视图进行分布式查询，。它是一种特殊的表引擎，自身不会存储任何数据，而是通过读取或写入其他远端节点上的表进行数据处理的表引擎。该表引擎需要依赖各个节点的本地表来创建，本地表的存在是Distributed表创建的依赖条件，创建语句如下： CREATE TABLE {teble} ON CLUSTER {cluster} AS {local_table} ENGINE= Distributed

clickhouse数据库详解

05-07

<think>好的，我现在要帮用户了解ClickHouse数据库的详细信息和使用方法。首先，我需要回顾用户提供的引用内容，看看有哪些关键点可以利用。用户给出的引用1到5主要涉及ClickHouse的操作使用指南、与Superset的整合、项目结构、LowCardinality与Skip Index的优化，以及Replication机制。用户希望得到一个详细的使用指南，所以需要覆盖基础操作和高级特性。首先，我应该从基础开始，比如安装配置、库引擎选择，因为引用1提到Atomic库引擎，这可能是一个重点。然后，数据表引擎有很多种，比如MergeTree系列，用户可能想知道如何选择和使用不同的引擎。接下来，数据操作部分，用户可能需要知道如何高效地插入、查询数据，特别是考虑到ClickHouse对SQL写法的敏感性，这点在引用1里提到过。优化部分也很重要，比如索引和编码，引用4提到的LowCardinality和Skip Index需要详细解释。高级特性方面，分布式表和物化视图是ClickHouse的亮点，应该涵盖。另外，数据复制和分片在引用5里提到，需要包括ZooKeeper的集成，这也是集群配置的关键。生态集成部分，引用2提到Superset的整合，可以介绍一下如何连接可视化工具。此外，维护和监控也是使用数据库不可忽视的部分，比如数据清理和备份策略。用户可能还希望了解性能优化的具体方法，比如避免频繁小批量插入，合理选择分区键，这些在引用1和4里都有涉及。另外，在回答时需要保持结构清晰，分步骤说明，确保用户能逐步理解和应用。最后，生成的相关问题需要覆盖用户可能进一步想了解的方面，比如性能调优、与其他数据库对比、数据同步方案等。这样可以帮助用户深入探索ClickHouse的不同方面。需要检查是否有遗漏的部分，比如安装步骤是否详细，引擎类型是否全面，优化技巧是否有实际例子。同时，确保引用正确，每个引用标记对应到用户提供的参考资料中，例如Atomic引擎对应引用1，LowCardinality对应引用4等。可能还需要注意用户提到的LaTeX格式，但问题中似乎没有涉及数学公式，所以这部分暂时不需要处理。总之，整理出一个结构化的指南，涵盖从基础到高级的内容，并引用相关资料作为支持，确保信息准确可靠。</think>### ClickHouse 数据库使用指南详解 #### 一、ClickHouse 基础特性 1. **列式存储与高性能** ClickHouse 是面向 OLAP 的列式数据库，通过列存储、向量化执行和稀疏索引实现高速查询。例如，分析十亿级数据时，聚合查询可在秒级完成[^1]。 2. **库引擎选择** 创建数据库时需指定引擎，常用引擎包括： - **Atomic**：支持原子性 DDL 操作，适用于生产环境[^1]。 - **MySQL**：用于与 MySQL 数据库交互。 ```sql CREATE DATABASE test_db ENGINE = Atomic; ``` --- #### 二、核心操作与配置 1. **表引擎选择** ClickHouse 表引擎决定了数据存储与处理逻辑： - **MergeTree 系列**：支持主键索引、分区和数据TTL（生存时间），适用于时序数据。 ```sql CREATE TABLE logs ( timestamp DateTime, message String ) ENGINE = MergeTree ORDER BY timestamp PARTITION BY toYYYYMM(timestamp); ``` - **ReplicatedMergeTree**：基于 ZooKeeper 实现多副本同步，保障高可用[^5]。 2. **数据写入与查询** - **批量写入**：推荐使用 `INSERT SELECT` 或 Parquet 文件导入。 - **查询优化**：避免 `SELECT *`，利用预聚合和物化视图加速查询。 ```sql -- 创建物化视图 CREATE MATERIALIZED VIEW daily_stats ENGINE = SummingMergeTree ORDER BY date AS SELECT toDate(timestamp) AS date, count() AS total_logs FROM logs GROUP BY date; ``` --- #### 三、高级功能与优化 1. **数据类型优化** - **LowCardinality**：对低基数字段（如性别、状态）使用字典编码，减少存储并加速查询[^4]。 ```sql CREATE TABLE users ( id UInt32, gender LowCardinality(String) ) ENGINE = MergeTree ORDER BY id; ``` 2. **索引机制** - **主键索引**：按 `ORDER BY` 字段构建稀疏索引，支持范围查询。 - **Skip Index**：通过布隆过滤器等跳过无关数据块，加速 `WHERE` 条件过滤[^4]。 3. **分布式集群** - 配置分片与副本： ```xml  <remote_servers> <cluster> <shard> <replica><host>node1</host></replica> <replica><host>node2</host></replica> </shard> </cluster> </remote_servers> ``` - 创建分布式表： ```sql CREATE TABLE distributed_table AS local_table ENGINE = Distributed(cluster, default, local_table, rand()); ``` --- #### 四、生态工具集成 1. **可视化工具** - **Superset**：通过 ClickHouse Connect 驱动连接，配置数据源 `clickhousedb://user:password@host:port/database` 创建仪表盘[^2]。 2. **数据迁移** - 使用 `clickhouse-client` 导入导出： ```bash clickhouse-client --query "SELECT * FROM table" > data.csv ``` --- #### 五、运维与监控 1. **数据维护** - **TTL 清理**：自动过期旧数据。 ```sql ALTER TABLE logs MODIFY TTL timestamp + INTERVAL 7 DAY; ``` - **备份**：通过 `FREEZE TABLE` 创建快照。 2. **性能监控** - 查看系统表 `system.query_log` 分析慢查询。 - 使用 Prometheus + Grafana 监控集群状态。 --- #### 六、最佳实践 1. **写入优化** - 避免单条插入，推荐每批次至少 1000 行。 - 使用 Buffer 表引擎暂存小批量数据。 2. **查询优化** - 优先使用 `WHERE` 条件过滤分区键。 - 对高并发场景启用 `SET max_threads=8` 调整并行度。 ---