Global in在Clickhouse非分布式表查询中的使用

文章出处来自:
https://cloud.tencent.com/developer/article/1801026
记录下,防丢失。

Clickhouse在OLAP查询场景下有显著的性能优势,但Clickhouse在大表join查询的场景下,性能表现并不是很好,因此在实际业务场景需要多表计算时,往往是通过in+子查询的方式代替join查询,以提升查询性能。

笔者在最近的业务开发中,尝试用这种方式,性能却没有想象中那么好。分析Clickhouse的查询计划,发现子查询中的语句会多次执行,且性能开销主要来自于子查询的执行,因此总体上查询耗时很长。通过网上资料查询以及本地实验,最终在查询语句中用Global in代替in解决了子查询执行多次的问题。但在这个过程中,笔者发现网上几乎没有对该问题的解释,因此在这里记录一下,希望能对他人有所帮助。

一、发现问题
笔者最近的业务场景是人群包筛选,即根据用户的属性和行为筛选出满足特定人群画像的人。简单起见,可以把业务数据抽象成3张表(都是非分布式表),用户表user(用户及其社交账号表,社交账号指手机、微信账号等)、属性表user_attr(用户的属性,如性别、年龄等)、行为表user_action(用户参加过哪些活动)。

典型业务查询就可以用如下的SQL表示:

代码语言:txt
复制
select distinct(sa_value) from user
where user_id in
(
select user_id from user_attr where age > 10
)
and user_id in
(
select user_id from user_action where action_name = ‘世界杯’
);
其中年龄大于10岁且参加过“世界杯”就是目标人群画像。实际业务场景会比这个查询复杂一些,可能会有更多的“user_id in xxx”条件(因为实际业务中属性和行为都可能分布在多个表中),但查询语句的模式不会变。

笔者信心满满的把这个查询语句丢到Clickhouse中,却发现,上述简单的查询却要执行2-3s,而单独执行内层的子查询只需要0.3-0.4s;多个条件的平铺倒是还好,只会增加一点点查询耗时,但业务场景复杂一点,用到多层嵌套的in+子查询时,查询耗时是随嵌套层数指数增加的。

下表是笔者使用测试数据,对同一张表写多层嵌套查询语句(每层的查询语句都是相同的)的测试结果,测试数据及查询结果都相同,可以看到每增加一层嵌套子查询,查询耗时基本要增加一倍。

子查询嵌套层数

查询耗时

1

26ms

2

35ms

3

63ms

4

104ms

5

191ms

6

369ms

7

742ms

8

1503ms

9

3214ms

二、问题分析及解决
Clickhouse是利用多核并行计算提升查询性能的,因此理论上在机器核心数足够的情况下,对于如下查询语句(A、B均表示某个子查询语句),A、B子查询是可以并行计算的,更多的子查询条件不会明显改变查询耗时。执行计划应该是子查询A和B都应分别计算一次,最后计算一次外层查询。但图一中该查询的查询日志显示,A、B子查询都被执行了2次。

代码语言:txt
复制
select distinct(sa_value) from user
where user_id in A and user id in B …
图一 查询计划示意图
图一 查询计划示意图
对于如下所示多层嵌套查询来说,理论上查询耗时应该是A、B、C单独执行耗时之和再加上最外层查询的耗时(因为需要先计算出子查询C的结果,将“user_id in C”当做一部分条件带入子查询B,然后计算出子查询B的结果,将“user_id in B”当做一部分条件带入子查询A,最后计算出子查询A,这3步是不能并行的)。执行计划应该是C、B、A依次执行一次,最后计算一次外层查询。但查看查询日志发现A被执行了2次、B被执行了4次、C被执行了8次。这也就解释了为什么多层嵌套查询的耗时会随层数指数增加。

代码语言:txt
复制
select distinct(sa_value) from user
where user_id in
(
A and user_id in
(
B and user_id in C
)
)
而笔者的业务场景中查询比较耗时的部分就是子查询部分(过滤用户的属性和行为),因此子查询多次执行直接导致了查询耗时较大。

在网上找了很多博客和文档,都没有明确提及过这个问题。搜索子查询多次执行,搜到的文章都是说Clickhouse分布式表查询中,in子查询会被执行多次,可以用Global in代替in来避免多次执行1。但官网文档同时又说明对于非分布式表,请用in查询而不要用Global in。带着试一试的态度,我把上面的非分布式表查询也替换为Global in试了一下,结果查询耗时大幅降低(3s->0.8s),查询计划中子查询多次执行的情况也没有了,执行计划完全符合预期。

三、原因分析
为什么Clickhouse中in子查询会被执行多次呢?为什么Global in可以解决子查询执行多次的问题呢?在网上查了很多资料,最终github上Clickhouse的一个issue给了我思路2

解释这个问题,要从Clickhouse MergeTree引擎的数据存储结构说起。MergeTree表由许多Data Part组成,Data Part在后台可以合并,形成新的Data Part;每个Data Part中的数据是按照主键排序存储的,并且主键有一个类似跳表的索引,依据跳表的key,将Data Part分为多个数据块(Granule),数据块就是MergeTree表中数据读取的最小单元。

接下来就要说到Clickhouse的prewhere查询和where查询了。Clickhouse执行where查询就是对数据做全表扫描,过滤掉不满足条件的行;而prewhere查询则可以利用分区信息和主键信息进行高效的分区修剪,在读取数据之前就依据分区和主键索引过滤掉无关的数据块,减少从磁盘读取的数据量,提升查询效率。需要注意的是,prewhere过滤之后的读取的数据块中包含满足条件的行,但并不是数据块中所有的行都满足查询条件。如图二所示,当查询条件为user_id=123时,左侧两个数据块都会被读取,但其中并不是每一行都满足user_id=123。

图二 prewhere阶段读取数据块示意
图二 prewhere阶段读取数据块示意
一般查询语句中只会写where查询,但在执行时,Clickhouse会根据条件里是否有分区键、主键等信息,将where查询优化成prewhere查询,提升整个查询的执行效率。

有了上面的知识背景,再来分析如下的查询语句:

代码语言:txt
复制
select distinct(sa_value) from user where user_id in A
假设user_id在user表的主键中,“user_id in A”这个条件就会被默认优化成prewhere条件,即执行该查询时,第一步会用该条件过滤数据块,此时就需要子查询A的计算结果,这就是子查询A的第一次执行。在prewhere阶段之后,从磁盘中读取了所有满足条件的数据块,但并不是其中的每一行都满足“user_id in A”的条件,于是必须要执行where阶段的行扫描,精准过滤出哪些行满足“user_id in A”的条件,此时又需要子查询A的计算结果,于是子查询A被第二次执行。对于多层嵌套的in子查询也是同样的道理,如果带子查询的条件命中了外层查询表的主键,那么外层查询执行1次,子查询就要执行2次。

这并不是说Clickhouse的prewhere优化有bug,因为Clickhouse很难判断这种情况下是用prewhere执行比较好,还是直接用where执行比较好。例如,当user表很大,而A子查询执行的开销很小时,全表扫描user表中的数据开销远比多执行一次A子查询开销大,这时使用prewhere优化可以提升执行效率。而在笔者的应用场景中,是子查询A(用户属性表、行为表过滤)执行的开销较大,因此禁用掉prewhere优化可以带来性能的提升。

目前Clickhouse集群的optimize_move_to_prewhere参数可以控制是否使用prewhere优化,但它是一个全局设置,关掉该开关将使所有查询都无法使用prewhere优化。对于in子查询条件,将in替换为Global in可以使子查询先执行并将结果保存在临时表中,这种方式可以避免子查询多次执行,但同时该条件也就无法被优化为prewhere查询。

欢迎使用Markdown编辑器

你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

  1. 全新的界面设计 ,将会带来全新的写作体验;
  2. 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
  3. 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
  4. 全新的 KaTeX数学公式 语法;
  5. 增加了支持甘特图的mermaid语法1 功能;
  6. 增加了 多屏幕编辑 Markdown文章功能;
  7. 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
  8. 增加了 检查列表 功能。

功能快捷键

撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G

合理的创建标题,有助于目录的生成

直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

删除文本

引用文本

H2O is是液体。

210 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片: Alt

居中的图片: Alt

居中并且带尺寸的图片: Alt

当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

  • 项目
    • 项目
      • 项目
  1. 项目1
  2. 项目2
  3. 项目3
  • 计划任务
  • 完成任务

创建一个表格

一个简单的表格是这么创建的:

项目Value
电脑$1600
手机$12
导管$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列第二列第三列
第一列文本居中第二列文本居右第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

TYPEASCIIHTML
Single backticks'Isn't this fun?'‘Isn’t this fun?’
Quotes"Isn't this fun?"“Isn’t this fun?”
Dashes-- is en-dash, --- is em-dash– is en-dash, — is em-dash

创建一个自定义列表

Markdown
Text-to- HTML conversion tool
Authors
John
Luke

如何创建一个注脚

一个具有注脚的文本。2

注释也是必不可少的

Markdown将文本转换为 HTML

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n1)!nN 是通过欧拉积分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t   . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=0tz1etdt.

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能,丰富你的文章

2014-01-07 2014-01-09 2014-01-11 2014-01-13 2014-01-15 2014-01-17 2014-01-19 2014-01-21 已完成 进行中 计划一 计划二 现有任务 Adding GANTT diagram functionality to mermaid
  • 关于 甘特图 语法,参考 这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:

张三 李四 王五 你好!李四, 最近怎么样? 你最近怎么样,王五? 我很好,谢谢! 我很好,谢谢! 李四想了很长时间, 文字太长了 不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三 李四 王五

这将产生一个流程图。:

链接
长方形
圆角长方形
菱形
  • 关于 Mermaid 语法,参考 这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图:

Created with Raphaël 2.3.0 开始 我的操作 确认? 结束 yes no
  • 关于 Flowchart流程图 语法,参考 这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。


  1. mermaid语法说明 ↩︎

  2. 注脚的解释 ↩︎

<think>嗯,用户这次聚焦在GLOBAL JOIN的数据完整性问题,看来ta对分布式查询的准确性有顾虑。从引用[1][3]的案例来看,用户可能遇到过实际查询结果不符合预期的情况,比如本不该出现的102班GGG同学被筛选出来。这种问题在分布式系统中确实常见,需要从执行机制层面解释清楚。 用户引用的材料很有针对性,特别是引用[1]详细对比了普通JOINGLOBAL JOIN的执行差异。这正好能用来解释数据缺失的关键点:普通JOIN在分片本地执行子查询,而GLOBAL JOIN由协调节点统一处理临时。不过用户似乎更担心GLOBAL JOIN本身会不会丢数据,这需要分两个层面回应。 首先技术原理上,引用[2]提到临时机制决定了右数据必然完整——因为协调节点会全量收集右结果。但左可能出问题,引用[3]的错误写法案例就展示了分片本地执行子查询会导致数据缺失。有趣的是,用户特意排除了网络故障等极端情况,说明ta关注的是常规使用场景下的逻辑正确性。 另外注意到用户之前问过JOIN优化策略,这次明显更深入了。或许ta正在调试实际业务中的分布式查询,遇到结果集不一致的情况。需要强调GLOBAL JOIN在数据完整性的优势时,也要提醒临时内存限制这个隐患(引用[2][4]),毕竟大右可能突破内存导致查询失败,但这属于执行失败而静默丢数据。 最后补充一个实践细节:当左也是分布式时,GLOBAL JOIN会分发临时到所有分片执行本地JOIN,这个过程理论上不会过滤左数据。不过如果左分片数据不均衡,可能造成某些节点执行失败,但整体结果集仍是全量的——只要集群健康,协调节点会收集所有成功分片的数据。</think>在 ClickHouse使用 `GLOBAL JOIN` 处理两个分布式时,**不会导致数据缺失**,但需要理解其执行机制以避免误用。以下是关键分析: --- ### 一、GLOBAL JOIN 如何保证数据完整 1. **执行流程**(引用[1][3]) - **步骤1**:协调节点先执行右查询 ```sql SELECT id FROM user_distributed WHERE name = 'Alice' -- 结果存入临时 _tmp ``` - **步骤2**:将临时 `_tmp` **全量分发**到所有分片节点 - **步骤3**:每个分片在本地执行完整 JOIN ```sql SELECT * FROM order_distributed_local JOIN _tmp ON order_distributed_local.user_id = _tmp.id ``` - **步骤4**:协调节点汇总所有分片结果 2. **数据完整性保障** - 右数据通过临时**全量复制**到所有节点(引用[4]) - 左数据在**本地分片**中完整参与 JOIN(无过滤) - 最终结果 = 所有分片结果集的**并集** --- ### 二、可能产生"数据缺失"假象的场景 #### 1. **错误使用普通 JOIN**(引用[1][3]) ```sql -- 错误写法:导致数据缺失 SELECT * FROM order_distributed WHERE user_id IN (SELECT id FROM user_distributed WHERE name = 'Alice') -- 原理:每个分片仅用本地的user_data执行子查询 -- 结果:跨分片的user_id关联丢失 ``` #### 2. **分片数据分布不均** 若数据分布未对齐分片规则(如分片键与JOIN键不一致): - 右临时 `_tmp` 包含**全局数据** - 但左**分片A**可能缺少关联键对应的数据 - *现*:结果集中该分片关联字段为 `NULL`(缺失,是数据不存在) #### 3. 网络或内存故障(引用[2][4]) | 故障类型 | 影响 | 解决方案 | |----------------|-------------------------------|------------------------------| | 临时过大 | 内存溢出导致查询失败 | 增加 `max_memory_usage` [^4] | | 网络中断 | 部分分片结果未返回 | 重试机制+监控网络流量[^2] | | 节点宕机 | 丢失该分片数据 | 副本机制(Replicated) | > 注:此类故障会导致**查询失败**而静默丢数据(系统抛出异常) --- ### 三、最佳实践确保数据完整 1. **始终用 `GLOBAL` 修饰分布式 JOIN** ```sql -- 正确写法 (引用[3]) SELECT * FROM order_distributed WHERE user_id GLOBAL IN (SELECT id FROM user_distributed WHERE name = 'Alice') ``` 2. **分片键与 JOIN 键对齐** ```sql -- 建时指定相同分片规则 CREATE TABLE user_distributed ON CLUSTER cluster ENGINE = ReplicatedMergeTree('/tables/{shard}/user', '{replica}') ORDER BY user_id -- 分片键=JOIN键 CREATE TABLE order_distributed ON CLUSTER cluster ENGINE = ReplicatedMergeTree('/tables/{shard}/order', '{replica}') ORDER BY user_id -- 与左一致 ``` 3. **控制右数据量**(引用[2][4]) - 右 > 内存限制时改用 **`JOIN` + 预聚合** ```sql GLOBAL JOIN ( SELECT id, ... FROM user_distributed WHERE name = 'Alice' GROUP BY id -- 预聚合减少数据量 ) AS filtered_users ``` --- ### 四、总结 | 场景 | 是否数据缺失 | 原因说明 | |--------------------|--------------|------------------------------| | 正确使用 GLOBAL JOIN | **否** | 右全量分发,左片本地全扫描 | | 误用普通 JOIN | **是** | 子查询仅在分片本地执行[^1] | | 节点故障 | **否** | 查询显式失败(不返回结果) | > 只要正确使用 `GLOBAL JOIN` 且集群运行正常,分布式关联**不会丢失数据**。性能问题可通过预聚合、分片键优化等解决(引用[2][4])。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值