故障分析 | ClickHouse 集群分布式 DDL 被阻塞案例一则

clickhouse分布式DDL卡死：优化表引发的长时阻塞策略

最新推荐文章于 2025-10-01 07:38:20 发布

原创

最新推荐文章于 2025-10-01 07:38:20 发布 · 2.5k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#分布式ddl #zookeeper

文章讲述了在ClickHouse 19.7.3集群中，遇到分布式DDL任务超时的问题，通过诊断发现是优化表操作卡住，影响后续任务。解决方法包括重命名表、手动执行本地DDL和降级数据同步策略。建议升级到20.x版本以避免类似问题。

作者：任坤

现居珠海，先后担任专职 Oracle 和 MySQL DBA，现在主要负责 MySQL、mongoDB 和 Redis 维护工作。

本文来源：原创投稿

*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

1、背景

线上有套10节点clickhouse集群，5分片 * 2副本，版本19.7.3。

开发执行一个创建分布式表的操作，9个节点都成功返回，有个节点报错，返回信息如下：

Code: 159. DB::Exception: Received from 127.0.0.1:9000. DB::Exception: Wa
tching task /clickhouse/task_queue/ddl/query‐0003271440 is executing longer
than distributed_ddl_task_timeout (=180) seconds. There are 1 unfinished ho
sts (0 of them are currently active), they are going to execute the query i
n background.