本文字数:6393;估计阅读时间:16 分钟
作者:ClickHouse Team
本文在公众号【ClickHouselnc】首发
上周,我们在旧金山成功举办了 ClickHouse 的首场用户大会 —— Open House。这是一场干货满满的盛会:从产品更新到客户案例,从现场演示到技术深潜,精彩不断。而压轴亮点,是我们现场宣布完成了 3.5 亿美元的 C 轮融资。
想了解更多内容,或回顾大会现场的视频?欢迎访问我们的 Open House 活动页面【https://clickhouse.com/clickhouse.com/openhouse】。
在这篇博客中,我们为你盘点大会主舞台发布的核心产品动态。
ClickHouse:为实时分析而生
ClickPipes 推出 Postgres CDC 连接器
过去几年,越来越多的企业在数据架构中同时采用 Postgres 和 ClickHouse —— 从 GitLab、Cloudflare 到 Instacart,跨越不同行业,形成了一个通用的模式:
- Postgres,作为核心事务数据库,负责记录系统事实;
- ClickHouse,作为分析引擎,支撑实时与历史查询。
随着 AI 应用的兴起,这一模式愈加普及。LangChain、LangFuse、Vapi 等新兴 AI 企业也在采用 Postgres + ClickHouse 的组合来支撑智能体工作负载和交互式分析需求。
我们相信,这套架构正在成为现代数据栈的“标配”。
为此,我们致力于让这两者之间的集成变得更加简单与高效。而 Postgres CDC 连接器 正是关键一步。在本次 Open House 上,我们正式宣布:ClickPipes 中的 Postgres CDC 连接器现已在 ClickHouse Cloud 上正式发布(GA)!无需复杂配置,只需几步操作,你就能将 Postgres 数据库实时同步到 ClickHouse Cloud,立即解锁毫秒级的分析能力。
这款连接器目前每月同步数据已超 100TB,服务客户包括 Ashby、Seemplicity、AutoNation 等。它具备以下优势:
-
同步速度提升 10 倍+
-
延迟低至几秒
-
自动处理 Schema 变更
-
全链路安全连接
-
支持大规模并发查询
想了解更多?欢迎阅读我们发布的 完整博客文章【https://clickhouse.com/blog/postgres-cdc-connector-clickpipes-ga】,并通过 快速入门指南【https://clickhouse.com/docs/integrations/clickpipes/postgres】 立即上手体验。
轻量级更新(Lightweight Updates):快速高效的数据变更方案
即便在 OLAP 场景中,数据更新能力也正变得越来越重要。ClickHouse 一直支持更新与删除,但传统基于 mutation 的机制,每次都需重写整个数据分片 —— 即便只修改了少数几行 —— 这不仅资源消耗大,还会引入不可预测的延迟。
为了解决这一问题,我们全新推出了 Lightweight Updates(轻量级更新) 功能。与传统方式不同,轻量级更新以“补丁(patch)”的形式记录发生变更的行与列,并附带用于定位的系统列,无需重写整个数据块。这些补丁在查询(SELECT)时即时生效,并在后台自动合并到常规数据分片中。这种设计大大加快了更新速度,并显著降低了延迟波动。
我们基准测试显示,在不同数据量和分布场景下,轻量级更新的性能提升可达数十倍甚至百倍,而对查询性能的影响却微乎其微。
- 开放时间:预计将在 7 月中旬于 ClickHouse Cloud 上线,并同步支持 开源版本 25.7+
- 使用场景: 高频更新、按需删除、数据修正等,均可快速实现而无需担心性能损耗
想了解更多?欢迎订阅我们的 更新通讯 或报名参与 发布网络研讨会。
ClickStack:为每个团队打造的可观测性技术栈
在本次 Open House 大会上,我们重磅推出了 ClickStack —— 基于 ClickHouse 打造的全新 开源可观测性技术栈。ClickStack 提供一个完整、开箱即用的可观测性解决方案,覆盖日志、指标和链路追踪三大支柱。它不仅继承了 ClickHouse 的高性能、低延迟优势,也围绕易用性与集成性进行了大量优化设计。
过去,搭建一套高效的可观测性平台往往意味着:
-
每种数据源使用不同存储系统
-
架构复杂,运维成本高
-
查询语法不统一,易于出错
ClickStack 将我们多年在大规模可观测性场景中的经验打包为一体化方案,集成了:
-
对 宽表格式和 JSON 数据 的原生支持
-
与 OpenTelemetry 和 HyperDX UI 的无缝集成
- 类 Lucene 查询语法,与 原生 SQL 的双重支持
- 模块化架构,与 自定义 Schema 支持
它不只是一个工具,更是一种理念 —— 世界级的可观测性能力,不应仅限于大型平台团队。
现在,任何团队,无论大小,都可以用 ClickStack:
-
更快定位问题
-
更少成本存储更多数据
-
拥有真正属于自己的遥测数据 —— 无厂商锁定
想深入了解 ClickStack?阅读我们的 公告博客【https://clickhouse.com/blog/clickstack-a-high-performance-oss-observability-stack-on-clickhouse】 或参考 入门指南【https://clickhouse.com/docs/use-cases/observability/clickstack/getting-started】 即刻上手。
ClickHouse 在数据湖与 Lakehouse 场景中的新进展
深度集成数据湖与 Lakehouse 架构
在本次 Open House 大会上,ClickHouse 发布了一系列面向 数据湖(Data Lake)和 Lakehouse 架构 的重大更新,包括用户体验优化、性能提升、Iceberg 与 Delta Lake 的更广泛兼容,以及一批令人期待的新特性。
更加便捷的用户体验
ClickHouse 通过与主流 数据目录服务 的集成(如 Unity、AWS Glue、Polaris 以及 Hive Metastore),让用户可以直接在 ClickHouse 中查询 Iceberg、Delta Lake 和 Uniform 表。
同时,ClickHouse 还引入了如 iceberg_history 这样的系统函数,并支持时间旅行(Time Travel)等能力,使用户可以原生调用 Iceberg 表的完整功能集,进一步简化了分析流程。
性能再升级
ClickHouse 在 Lakehouse 场景下的查询性能继续获得增强,主要体现在三个方面:
-
支持分区与文件裁剪:对 Iceberg 与 Delta Lake 表支持更加智能的读取路径优化;
-
缓存机制优化:提升了缓存命中率,并增强了元数据的本地缓存能力;
-
基于统计信息的裁剪:通过统计信息智能跳过无关文件,降低整体查询延迟。
更强的格式兼容能力
ClickHouse 现在已经支持 Iceberg v2 的大部分特性,并与 Delta Kernel 深度集成,进一步增强了对 Delta Lake 的兼容性。这让开发者在构建基于开放表格式的数据湖时,能获得更一致、可靠的查询体验。
接下来:更强的分布式缓存支持
为进一步提升在数据湖场景中的实时分析能力,ClickHouse 正在研发两个核心功能。其中最重要的就是:
分布式缓存(Distributed Cache)
该缓存机制在所有计算节点之间构建了一个统一的缓存层,具备以下优势:
-
更高的缓存命中率:避免重复拉取数据;
-
横向 / 纵向弹性扩展能力:更易于支持大规模并发查询;
-
缓存共享:新加入的计算节点可直接复用已有热数据,避免重新预热;
目前,该功能已在 ClickHouse Cloud 中开启 私测申请通道【https://clickhouse.com/cloud/distributed-cache-waitlist】。如果你希望第一时间体验这项功能,可以前往注册。更多技术细节,请阅读博客文章:为 S3 构建分布式缓存。
无状态计算节点
Iceberg 和 Delta Lake 的最大优势之一是其“无状态”架构。为了与之匹配,ClickHouse 推出了全新架构,支持将查询任务交由临时计算节点执行。这种架构基于 数据洗牌(data shuffling) 技术,将查询工作负载高效分发到一组短时存在的弹性节点上。
如下图所示:
-
洗牌前:节点之间未协同,任务分配不均;
-
洗牌后:数据被合理分布,节点协同执行,提高了并发能力与资源利用率。
目前该功能仍处于原型阶段,计划在今年晚些时候开放用户测试。
而这仅仅是开始。ClickHouse 在数据湖和 Lakehouse 场景的能力还在不断扩展,包括互操作性、效率与稳定性上的持续进化。
👉 想抢先体验这些能力?欢迎加入 ClickHouse Lakehouse 等候名单。【https://clickhouse.com/cloud/data-lakehouse-waitlist】
SQL Join 性能与相关子查询优化
我们还在 Open House 上公布了针对 SQL Join 的一系列性能突破,显著加速了真实业务场景下的分析型查询。
这些优化已在 ClickHouse 25.5 中上线,未来版本还将持续推出更多改进。
过去半年,我们对 Join 的核心执行引擎进行了全面重构,带来高达 20 倍 的性能提升(基于 TPC-H 基准测试)。优化内容包括:
-
完全并行化的哈希连接(hash joins):Join 的构建与探测阶段可以在多个 CPU 核心上同时执行;
-
自动选择构建端与探测端:根据表的大小自动优化 Join 执行顺序,提升缓存命中率;
-
更智能的查询计划:包括更积极的过滤条件下推、更少的锁等待,甚至在条件满足时自动省略无效的 Join(Join 消除);
而这仍只是起步。我们即将发布的 全局 Join 重排序(global join reordering) 能够自动重排多个 Join 表的执行顺序,在内部测试中已实现 最高 45 倍的加速。
技术博客即将上线。如果你想自行尝试,可以参考 TPC-H 文档【https://www.tpc.org/tpc_documents_current_versions/current_specifications5.asp】 快速进行基准测试。
(*)TPC-H 性能测试使用了 scale factor 100,在一台配备 32 核心处理器和 64 GB 内存的服务器上完成。
用 ClickHouse 加速 AI/ML
ClickHouse 覆盖了整个 AI/ML 生命周期,从数据探索到模型上线。在探索和准备阶段,开发者和数据科学家可以借助 clickhouse-local、chDB(ClickHouse 的进程内嵌入式版本)以及 ClickHouse 服务器,交互式地处理不断增长的数据。无论是执行临时查询、清洗数据集,还是进行特征工程,ClickHouse 都为迭代式的数据处理提供了高速灵活的环境。
当模型进入训练和推理阶段时,ClickHouse 既可以作为特征存储,也能作为向量存储,支持对结构化和非结构化数据的实时检索。比如我们最近发布了新的向量相似性索引的测试版,支持 HNSW 索引,并引入了默认使用的 BFloat16 和 int8 量化。
此外,用户还可以通过用户自定义函数(UDF)扩展 ClickHouse 的功能,实现更复杂的转换逻辑和模型相关操作。这让 ClickHouse 不再只是分析平台的后端服务,而是可以直接嵌入到机器学习流水线中的关键组件。
面向 AI 智能体的数据分析
今年 2 月,我们推出了“面向 AI 智能体的分析”能力。这类分析工作负载专为支持 AI 智能体而设计,而不仅限于传统用户。随着 copilots、聊天机器人和半自动系统等智能体在工作流程中扮演越来越重要的角色,它们对结构化、实时的分析数据有着更高的需求。ClickHouse Cloud 中的 “Ask AI” 功能,以及远程 Model Context Protocol(MCP)服务器的推出,正是满足这一需求的重要进展。
ClickHouse 云服务推出了 Ask AI
“Ask AI” 是 ClickHouse Cloud 提供的一站式分析体验,用户无需编写 SQL 或浏览复杂的仪表板,仅需使用自然语言描述需求,即可触发复杂的数据分析任务。助手会返回自动生成的查询语句、可视化图表或摘要结果,还能结合当前的标签页、保存的查询、数据结构和仪表板等上下文信息,提升回答的准确性。它作为一个内嵌助手存在,帮助用户从提问快速获得洞察,甚至自动生成可用的仪表板和 API。
远程 MCP 服务器集成
当然,也有不少用户并不通过 Cloud 控制台操作 ClickHouse。比如许多开发者习惯直接在 IDE 中工作,或通过定制方式访问数据库,还有一些用户则更多依赖像 Claude 这样的通用型 AI 助手。这类用户及其代表的智能体工作负载,需要一种简单安全的方式访问 ClickHouse Cloud,而无需搭建复杂的系统。
ClickHouse Cloud 新推出的远程 MCP 服务器功能,为外部智能体提供了标准接口,用于获取所需的分析上下文。MCP(Model Context Protocol)是一个面向大语言模型(LLM)驱动 AI 应用的结构化数据访问标准。通过该功能,外部智能体可以列出数据库和数据表、查看表结构,并运行只读的 SELECT 查询,且查询范围受控。认证流程通过 OAuth 完成,服务器完全由 ClickHouse Cloud 托管,无需额外配置和维护。
这极大地降低了智能体工具接入 ClickHouse 的门槛,无论是用于数据分析、摘要生成、代码生成,还是探索式的数据查询,都能更轻松地获取所需数据。
需要注意的是,这些功能将以私测预览的形式逐步开放,并将在早期用户的反馈基础上不断改进。如果你感兴趣,可以前往 clickhouse.ai【https://clickhouse.com/ai】 提交申请,了解更多信息并获取访问权限。
结论
Open House 本次的盛大活动标志着 ClickHouse 的又一重要里程碑。我们要特别感谢所有演讲嘉宾,包括来自 Weights & Biases、OpenAI、Exabeam、Sierra、Tesla、Anthropic 和 Lyft 的工程师们分享的精彩客户故事,也感谢所有参与者让本次活动圆满成功。
如果你错过了这场活动,或者希望回顾其中的内容,我们将在接下来的几周里,把所有演讲和演示的录制视频上传至我们的 YouTube 频道。同时,也可以在 Open House 官方页面查看详细的公告信息【https://clickhouse.com/openhouse】。想了解活动的现场情况,请查看我们在 X 上发布的活动话题串【https://x.com/ClickHouseDB/status/1928124914311053680】。
征稿启示
面向社区长期正文,文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出&图文并茂。质量合格的文章将会发布在本公众号,优秀者也有机会推荐到 ClickHouse 官网。请将文章稿件的 WORD 版本发邮件至:Tracy.Wang@clickhouse.com