ClickStack 十月更新亮点（2025 年）

原创于 2025-12-06 12:32:40 发布 · 398 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#clickhouse

软件工程专栏收录该内容

132 篇文章

订阅专栏

本文字数：4509；估计阅读时间：12 分钟

作者：ClickStack Team

本文在公众号【ClickHouseInc】首发

欢迎阅读 ClickStack 十月新功能速览 —— ClickStack 是专为 ClickHouse 打造的开源可观测性（observability）解决方案。我们每月持续迭代，结合 ClickHouse 的新特性和 HyperDX UI 的功能增强，让可观测性体验更加快速、直观和强大。

本次更新带来了多个重要新功能，包括：ClickHouse Cloud 上线告警（alerting）机制、支持自定义的事件变化（Event Deltas）以提升灵活性、多行搜索能力，以及新增仪表盘过滤器，帮助用户更高效地定位问题。此外，我们还增强了 HyperDX UI 的整体过滤功能，使 Kubernetes 仪表盘支持自定义配置，并在性能方面进一步优化，确保 ClickStack 和 HyperDX 在真正的 PB 级数据规模下依然保持流畅响应。

新晋贡献者

构建开源可观测性平台离不开社区的共同协作。感谢本月的新贡献者们加入！你们的每一次提交，无论大小，都是推动 ClickStack 进步的重要力量。

@datnguyennnx @ruudk @abdussamadbello @jjh5887

ClickHouse Cloud 上线告警功能

就在本周，我们正式宣布 ClickStack 已在 ClickHouse Cloud 中支持告警功能，这是向开源版本实现功能对齐的重要一步。你可以点击此处查看完整公告(https://clickhouse.com/blog/alerting-arrives-in-clickstack-for-clickhouse-cloud)。简而言之，用户现在可以直接在 HyperDX UI 中配置和管理日志、指标、链路追踪等的实时告警，无需任何自定义脚本或额外的基础设施运维。

新版本还支持与 Slack、PagerDuty 及 Webhook 无缝集成，当 ClickHouse 中的延迟、错误率或其他关键指标（KPI）出现异常时，系统可立即通知团队响应。告警配置方式灵活，既可基于搜索，通过 SQL 或 Lucene 查询设定窗口和阈值，也可基于图表，直接从仪表盘创建并支持完整的 SQL 聚合。这些能力结合使用，让用户只需几步点击，就能从数据可视化迅速切换到主动监控。

未来我们还将拓展更多告警能力，包括支持邮件通知、引入异常检测类的高级逻辑等。同时，我们也在探索构建专用计算池，利用 ClickHouse 的计算仓库，为大规模环境下的告警任务提供隔离处理能力。

仪表盘过滤功能

本月更新中最受瞩目的新特性，是一个简单却备受期待的功能 —— 仪表盘过滤器。它一直是 ClickStack 用户最常提及的需求之一，如今终于正式上线。

虽然之前用户可以使用 SQL 或 Lucene 在仪表盘中筛选数据，但一直缺乏一种既快捷又直观的方式，来自定义交互式过滤条件。我们希望打破这种局限，同时避免像其他可观测性工具那样复杂的配置流程。

我们的目标是让过滤变得毫无门槛。不需要设置变量，也不必经过繁琐的多步操作 —— 只需选择你想过滤的列，ClickStack 会自动识别合适的过滤类型，并在仪表盘上生成一个直观的控件。你只需要（可选地）为它起个名字即可。

最终呈现的效果是简洁流畅、完全无需操心底层逻辑的体验。如图所示，添加过滤器非常轻松。以下是一个仪表盘的示例，展示了按服务名称分类的错误和延迟。

这个场景中，服务名称自然就是一个很合适的过滤条件。如图所示，添加只需几步即可完成：

可配置的 Event Deltas

Event Deltas 是 ClickStack 独有的一项强大功能，它能够自动揭示哪些因素导致部分 trace（链路追踪）相比其他 trace 更慢。与其手动对 span 进行筛选、分组、比对，不如借助 Event Deltas 的自动化能力，动态对比快慢 trace，快速找出最可能导致性能下降的关键属性。

这项能力特别适用于 SRE 等角色，帮助他们迅速定位异常 trace 背后的根本原因 —— 不论是刚上线的版本、某个 API 端点，还是特定的用户群体。与依赖离线机器学习分析或静态告警不同，Event Deltas 更适合用于实时的数据探索流程。

默认情况下，Event Deltas 以密度热力图的形式展示 span 持续时间的分布。x 轴代表时间，y 轴为持续时间，颜色深浅则代表对应时间段中 span 的数量。颜色越密集（例如黄色或橙色）说明性能越稳定，而零散的高亮区域则可能代表性能异常。只要点击这些异常区域，系统就会自动和正常区间做对比，找出最有可能关联的属性，例如具体接口、服务版本或用户维度。

此前，Event Deltas 仅支持固定的配置：y 轴为持续时间，颜色密度代表 span 数量。而这次更新则引入了全面的自定义能力：用户可以自由指定 y 轴显示的字段，以及颜色强度的计算指标。这一变化让分析维度更加丰富，例如可以探索数据库响应时间和整体延迟的关系，或将错误率、CPU 使用时间、数据大小等作为分析指标进行可视化。

以我们的公开演示项目 ClickPy 为例，它用于分析 Python 包的下载情况，并接入了 OpenTelemetry。每张图表都会发起多次 ClickHouse 查询。虽然 duration 字段记录了整体请求耗时，但我们更关注 ClickHouse 查询本身的响应时间。这不仅可能揭示系统的瞬时负载，也能暴露那些持续较慢的查询。

响应时间记录在 SpanAttributes 映射中的 db.response_time_ms 字段内。我们现在可以直接在密度热力图上方的表达式中修改配置，将该字段作为分析对象。由于这是一个字符串类型字段，我们需要将其转换为 UInt64，以便 Event Deltas 可用于分析真实响应时间，而非默认的 span 持续时间。

在生成的可视化结果中，我们可以清晰地看到一段时间内周期性高延迟的聚集区域。像以往一样，我们可以选择这些区域进行 Event Deltas 分析，从中找出最可能导致异常的因素。

我们的分析结果非常明确：这些高延迟来自某类特定的查询，与一个名为 getPackageRanking 的可视化操作相关。这个功能用于计算某个 Python 包在整个生态系统中的下载排名。

过滤百分比功能

ClickStack 中的 facet 功能用于展示每个字段的可筛选值。了解某个字段中各个值的分布情况，是实现快速直观探索的关键。

全新的“过滤百分比”功能，可以即时展示各个值在结果集中的大致占比，帮助用户更有方向地进行分析，把注意力集中在关键区域。

现在，用户可以在过滤面板中查看 facet 中每个值的近似百分比，了解它们在当前筛选数据中的占比情况。这些百分比基于 10 万行代表性样本计算，采样方式与 ClickStack 的日志模式分析保持一致。为保证响应速度，ClickStack 默认只展示样本中最常见的前 100 个值，并假设其余值总占比不足 1%。

这一功能为用户提供了轻量却高效的视角，有助于在深入分析之前快速建立对数据结构的整体认知。不论你是按服务名称、接口路径，还是地区字段查看日志，过滤百分比都能帮助你迅速识别活动最集中或异常最突出的区域，全程无需离开过滤面板。

多行搜索支持

细节往往决定体验。比如，有时你只是需要一个更大的编辑空间。这次更新中，ClickStack 正式支持多行查询输入 —— 虽小却实用，让 SQL 的编写与修改更加舒适。

虽然 Lucene 搜索通常不采用多行格式，但 ClickStack 支持完整 SQL 查询，许多语句都涉及多行结构。此前用户只能将所有语句压缩在一行中，既难阅读也不便修改。现在，通过这项简单的优化，你可以自然地分行书写查询语句，提升可读性和编辑效率。

可配置的 Kubernetes 仪表盘

ClickStack 一直提供即开即用的 Kubernetes 监控功能 —— 支持查看 pod、节点和命名空间，并探索相关日志与事件。本次更新则进一步提升了灵活性，允许用户自行配置用于仪表盘的数据来源。

之前，Kubernetes 仪表盘只能使用连接中默认绑定的日志和指标源。而现在，用户可以自由选择任意日志来源，并在配置中定义相关的指标数据源后，ClickStack 会自动检测并应用这些设置。这一增强功能使用户能够灵活分析不同集群或工作负载的 Kubernetes 数据 —— 不论是按环境（如生产、测试）区分，还是按团队、服务进行隔离。

性能提升

随着越来越多用户在大规模环境中部署 ClickStack，我们每月都在持续打磨性能表现。本月也不例外。根据用户在高频率 OpenTelemetry 负载下的反馈，我们重点优化了查询、图表和仪表盘的响应速度，进一步消除性能瓶颈。

上个月我们引入了“请求分段”机制，用于提升长时间范围搜索的效率。该机制会将时间跨度较大的查询划分为多个小段，从最新时间段优先执行，只要结果满足条件就提前返回。

本月，我们将类似机制引入图表渲染，并取得显著效果。现在图表可随着数据加载逐步呈现，同时还能重用不同时间区间内缓存的查询块。在测试中，这项优化使得图表加载总延迟减少最多达 25%，单次查询的平均内存占用下降 18%-80%。更重要的是，初始加载时间（即首次显示结果的时间）最多缩短 95%，显著提升了用户的响应体验。目前该优化已应用于日志和链路追踪图表，OpenTelemetry 指标支持也即将上线。

如下图所示，当用户请求查看长达 7 天的可视化数据时，图表会逐步加载并动态呈现。

此外，我们还优化了时间戳字段的过滤效率，特别适用于使用表达式（如 toStartOfDay(Timestamp)）作为主键的数据源。现在 HyperDX 会自动同时使用 Timestamp 和 toStartOfDay(Timestamp) 进行过滤，充分利用主索引能力。实测显示，该优化在大多数场景下可将查询延迟降低约 25%，在复杂过滤条件下的效果更为显著。系统还会对时间戳比较语句中的右侧值自动应用相同转换逻辑，确保在狭窄时间范围内实现高精度过滤。通过这一系列改进，ClickStack 不仅提升了整体查询一致性，也大幅简化了时间戳的配置需求。

征稿启示

面向社区长期正文，文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出&图文并茂。质量合格的文章将会发布在本公众号，优秀者也有机会推荐到 ClickHouse 官网。请将文章稿件的 WORD 版本发邮件至：Tracy.Wang@clickhouse.com