Anthropic 如何利用 ClickHouse 提升 AI 时代的可观测性-优快云博客

本文链接：https://blog.youkuaiyun.com/ClickHouseDB/article/details/149502570

本文字数：3406；估计阅读时间：9 分钟

作者：ClickHouse Team

本文在公众号【ClickHouseInc】首发

在短短几年内，Anthropic 不仅因不断推动 AI 能力的边界而声名鹊起，同时也因始终坚持安全与责任的理念而受到广泛认可。作为 Claude 系列前沿大语言模型（Large Language Model）背后的公司，Anthropic 将这一承诺深度贯彻至其基础设施层面，其中，可观测性（observability）在保障性能和安全防护中扮演着至关重要的角色。

“ClickHouse 在我们开发和发布 Claude 4 的过程中起到了关键作用。”

—— Maruth Goyal，Anthropic 技术团队成员

当 Claude 的使用量在 2024 年激增时，Anthropic 的可观测性团队需要应对激增的遥测数据、指标和日志。每发布一代新模型，风险系数就会进一步提升。他们必须实时捕捉潜在问题，防止敏感数据泄露，并确保所有系统都在高度受控、安全的计算环境中稳定运行。

责任与能力并重

Maruth Goyal 表示，2024 年 3 月 Claude 3 发布后，“人们开始注意到我们了。”而几个月后 Claude 3.5 的发布，则让团队真正感受到了压力，“那时，情况一下子变得极为棘手。”

使用量飙升，模型日益复杂，支撑基础设施也必须迅速扩展。计算资源的规模不断膨胀，随之而来的则是海量的监控、排障和微调数据，用于应对愈发复杂的训练与推理工作负载。突然之间，现有的可观测性系统已难以为继。

“当你手里有海量数据时，会发生什么？”Maruth 提问道，“数据库的负载就会爆炸，查询不断超时，工程师们逐渐失去耐心，运营成本也随之水涨船高。”

与此同时，Anthropic 对安全和防护的要求也愈发严格。2025 年 5 月，Claude Opus 4 发布，Anthropic 同步启用了 AI Safety Level 3 级别的安全防护措施[https://www.anthropic.com/news/activating-asl3-protections]，这是一套旨在降低模型被滥用风险的内部机制。Maruth 解释说，其中一个核心措施就是严格限制数据访问权限。

“我们担心，极其强大的模型权重一旦被不法分子掌握，可能会带来极其严重的后果，”他说道，“为此，我们对集群的所有出站流量进行严格监控，确保任何数据都不会离开 Anthropic 的安全计算环境。”

选择 ClickHouse 以扩展可观测性

2024 年底，Maruth 和 Anthropic 团队开始着手寻找更优的数据库解决方案。他们的需求清单颇具挑战性：“我们需要能够实时接入海量数据的能力。我们需要针对半结构化数据的快速、交互式且功能丰富的分析工具。系统必须部署在 Anthropic 的安全计算环境中，并且具备可扩展的成本结构。”

此外，团队还希望数据库能够良好兼容业界标准的可观测性（observability）工具，同时无需过多的运维干预。“在 1 月之前，我的团队也就只有三个人，”Maruth 说道，“我们不希望因此疲于奔命。”

延续 Anthropic 一贯的方式，Maruth 并不需要绞尽脑汁去到处寻找合适的方案。“如果我能直接请教一个超级智能体该选什么就好了，”他笑称，“要是手头有一个，那可真方便。”

他向 Claude 询问了推荐方案，Claude 推荐了 ClickHouse。进一步了解后，Maruth 发现这个选择相当契合。“它支持大规模的实时数据接入，”他说道，“它还具备快速分析、灵活部署和高性价比的扩展能力。”

他将这一方案带给了团队，大家一致认可：“听起来很不错。”接下来，他们只需要解决如何在隔离且严格管控的环境中部署的问题。

以 Anthropic 方式部署 ClickHouse

ClickHouse 在技术层面完全契合，但默认的部署方案并不能直接满足 Anthropic 的需求。开源版本虽然优势明显——“上手迅速，久经验证，性能卓越”——但同时也需要自行管理磁盘、副本、重分片等一系列复杂工作，Maruth 将其形容为“繁杂的操作流程”。“这并不算轻松——当然，使用 ClickHouse 本身是件有趣的事，但运维代价实在不低，”他补充道。

ClickHouse Cloud 也有其独特优势。“它支持动态扩展，背后依托的是成本效益高、可靠的 blob 存储，”Maruth 说道，“但这一切只能在 ClickHouse Cloud 上实现。”而这对 Anthropic 来说是个硬性限制，因为公司所有服务必须在自有的安全计算环境中运行。

于是他们采用了混合部署的策略。通过与 ClickHouse 团队的合作，他们在 Anthropic 内部基础设施上部署了定制的、隔离的 ClickHouse Cloud 架构。从控制平面到数据平面，所有组件均由内部运营和维护。

Anthropic 的 ClickHouse 部署

该集群基于 Kubernetes 运行，由 ClickHouse Operator 负责编排。集群包含三个 ZooKeeper 替代方案（称为“keepers”），分别部署在三个可用区。后端使用对象存储作为支撑层，并采用可横向扩展的服务器架构。Prometheus 用于监控，Vector 负责数据接入，整体可观测性管道实现了高效且条理清晰的整合。

Maruth 解释道，这一方案充分满足了 Anthropic 的所有需求：能够根据业务压力灵活扩展，同时避免工程师陷入繁琐的日常运维工作。“最重要的是，所有部署都在 Anthropic 的安全环境中，且完全由我们自主运营，”他强调道。

速度、安全性与运维的从容

Anthropic 全新部署的可观测性方案，已带来了显著的成效。正如 Maruth 所说：“数据库始终保持稳定，查询速度快如闪电，成本也得到了有效控制。”

“此前的方案中，”他解释道，“我们的数据库运维人员常常因此失眠、倍感挫败，因为他们无法专注于真正重要的工作。大量时间花在与数据库之外的支持团队沟通，寻求如重新分片、修复写入复制等运维支持。”

而如今，这些问题已不复存在。Maruth 分享道，一位工程师甚至告诉他：“我已经很久没有察觉数据库的存在了。”而这，正是数据库运维应有的理想状态。

借助 ClickHouse，对海量数据集的快速、稳定查询已经成为日常。团队可以无需再为基础设施分心，将精力集中于真正重要的任务：打造更高效的工具、更快速地交付模型，以及持续拓展 Claude 的能力边界。

从 Claude 4 到智能体分析

除了扩展可观测性，Maruth 表示：“ClickHouse 在我们开发与交付 Claude 4 的过程中扮演了至关重要的角色。”他解释，训练先进的大语言模型，需要对性能指标与系统行为持续可见。ClickHouse 具备实时分析的速度与灵活性，已在助力构建最前沿语言模型的过程中，发挥了巨大价值。

目前，团队正探索下一代方向：智能体分析（agentic analytics）。随着 ClickHouse MCP 服务器的推出，Anthropic 可以将模型——如智能编码工具 Claude Code[https://www.anthropic.com/claude-code]——直接与 ClickHouse 连接。通过这种方式，智能体可以通过程序化手段查询指标、发起问题并自动获得答案，无需编写传统的查询语言。

“我对此非常期待，”Maruth 说道，“在我看来，可观测性的本质并不在于 SQL 或 PromQL，而在于提问。我们希望能够直接提出问题，并立即获得所需答案。归根到底，这才是可观测性的核心价值。”

借助 ClickHouse，Anthropic 已经构建起支撑当下 AI 工作负载的可扩展、安全的坚实基础，并朝着更加动态、智能体驱动的未来不断迈进。

征稿启示

面向社区长期正文，文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出&图文并茂。质量合格的文章将会发布在本公众号，优秀者也有机会推荐到 ClickHouse 官网。请将文章稿件的 WORD 版本发邮件至：Tracy.Wang@clickhouse.com