本文字数:3406;估计阅读时间:9 分钟
作者:ClickHouse Team
本文在公众号【ClickHouseInc】首发
在短短几年内,Anthropic 不仅因不断推动 AI 能力的边界而声名鹊起,同时也因始终坚持安全与责任的理念而受到广泛认可。作为 Claude 系列前沿大语言模型(Large Language Model)背后的公司,Anthropic 将这一承诺深度贯彻至其基础设施层面,其中,可观测性(observability)在保障性能和安全防护中扮演着至关重要的角色。
“ClickHouse 在我们开发和发布 Claude 4 的过程中起到了关键作用。”
—— Maruth Goyal,Anthropic 技术团队成员
当 Claude 的使用量在 2024 年激增时,Anthropic 的可观测性团队需要应对激增的遥测数据、指标和日志。每发布一代新模型,风险系数就会进一步提升。他们必须实时捕捉潜在问题,防止敏感数据泄露,并确保所有系统都在高度受控、安全的计算环境中稳定运行。
责任与能力并重
Maruth Goyal 表示,2024 年 3 月 Claude 3 发布后,“人们开始注意到我们了。”而几个月后 Claude 3.5 的发布,则让团队真正感受到了压力,“那时,情况一下子变得极为棘手。”
使用量飙升,模型日益复杂,支撑基础设施也必须迅速扩展。计算资源的规模不断膨胀,随之而来的则是海量的监控、排障和微调数据,用于应对愈发复杂的训练与推理工作负载。突然之间,现有的可观测性系统已难以为继。
“当你手里有海量数据时,会发生什么?”Maruth 提问道,“数据库的负载就会爆炸,查询不断超时,工程师们逐渐失去耐心,运营成本也随之水涨船高。”
与此同时,Anthropic 对安全和防护的要求也愈发严格。2025 年 5 月,Claude Opus 4 发布,Anthropic 同步启用了 AI Safety Level 3 级别的安全防护措施[https://www.anthropic.com/news/activating-asl3-protections],这是一套旨在降低模型被滥用风险的内部机制。Maruth 解释说,其中一个核心措施就是严格限制数据访问权限。
“我们担心,极其强大的模型权重一旦被不法分子掌握,可能会带来极其严重的后果,”他说道,“为此,我们对集群的所有出站流量进行严格监控,确保任何数据都不会离开 Anthropic 的安全计算环境。”
选择 ClickHouse 以扩展可观测性
2024 年底,Maruth 和 Anthropic 团队开始着手寻找更优的数据库解决方案。他们的需求清单颇具挑战性:“我们需要能够实时接入海量数据的能力。我们需要针对半结构化数据的快速、交互式且功能丰富的分析工具。系统必须部署在 Anthropic 的安全计算环境中,并且具备可扩展的成本结构。”
此外,团队还希望数据库能够良好兼容业界标准的可观测性(observability)工具,同时无需过多的运维干预。“在 1 月之前,我的团队也就只有三个人,”Maruth 说道,“我们不希望因此疲于奔命。”
延续 Anthropic 一贯的方式,Maruth 并不需要绞尽脑汁去到处寻找合适的方案。“如果我能直接请教一个超级智能体该选什么就好了,”他笑称,“要是手头有一个,那可真方便。”
他向 Claude 询问了推荐方案,Claude 推荐了 ClickHouse。进一步了解后,Maruth 发现这个选择相当契合。“它支持大规模的实时数据接入,”他说道,“它还具备快速分析、灵活部署和高性价比的扩展能力。”
他将这一方案带给了团队,大家一致认可:“听起来很不错。”接下来,他们只需要解决如何在隔离且严格管控的环境中部署的问题。
以 Anthropic 方式部署 ClickHouse
ClickHouse 在技术层面完全契合,但默认的部署方案并不能直接满足 Anthropic 的需求。开源版本虽然优势明显——“上手迅速,久经验证,性能卓越”——但同时也需要自行管理磁盘、副本、重分片等一系列复杂工作,Maruth 将其形容为“繁杂的操作流程”。“这并不算轻松——当然,使用 ClickHouse 本身是件有趣的事,但运维代价实在不低,”他补充道。
ClickHouse Cloud 也有其独特优势。“它支持动态扩展,背后依托的是成本效益高、可靠的 blob 存储,”Maruth 说道,“但这一切只能在 ClickHouse Cloud 上实现。”而这对 Anthropic 来说是个硬性限制,因为公司所有服务必须在自有的安全计算环境中运行。
于是他们采用了混合部署的策略。通过与 ClickHouse 团队的合作,他们在 Anthropic 内部基础设施上部署了定制的、隔离的 ClickHouse Cloud 架构。从控制平面到数据平面,所有组件均由内部运营和维护。
Anthropic 的 ClickHouse 部署
该集群基于 Kubernetes 运行,由 ClickHouse Operator 负责编排。集群包含三个 ZooKeeper 替代方案(称为“keepers”),分别部署在三个可用区。后端使用对象存储作为支撑层,并采用可横向扩展的服务器架构。Prometheus 用于监控,Vector 负责数据接入,整体可观测性管道实现了高效且条理清晰的整合。
Maruth 解释道,这一方案充分满足了 Anthropic 的所有需求:能够根据业务压力灵活扩展,同时避免工程师陷入繁琐的日常运维工作。“最重要的是,所有部署都在 Anthropic 的安全环境中,且完全由我们自主运营,”他强调道。
速度、安全性与运维的从容
Anthropic 全新部署的可观测性方案,已带来了显著的成效。正如 Maruth 所说:“数据库始终保持稳定,查询速度快如闪电,成本也得到了有效控制。”
“此前的方案中,”他解释道,“我们的数据库运维人员常常因此失眠、倍感挫败,因为他们无法专注于真正重要的工作。大量时间花在与数据库之外的支持团队沟通,寻求如重新分片、修复写入复制等运维支持。”
而如今,这些问题已不复存在。Maruth 分享道,一位工程师甚至告诉他:“我已经很久没有察觉数据库的存在了。”而这,正是数据库运维应有的理想状态。
借助 ClickHouse,对海量数据集的快速、稳定查询已经成为日常。团队可以无需再为基础设施分心,将精力集中于真正重要的任务:打造更高效的工具、更快速地交付模型,以及持续拓展 Claude 的能力边界。
从 Claude 4 到智能体分析
除了扩展可观测性,Maruth 表示:“ClickHouse 在我们开发与交付 Claude 4 的过程中扮演了至关重要的角色。”他解释,训练先进的大语言模型,需要对性能指标与系统行为持续可见。ClickHouse 具备实时分析的速度与灵活性,已在助力构建最前沿语言模型的过程中,发挥了巨大价值。
目前,团队正探索下一代方向:智能体分析(agentic analytics)。随着 ClickHouse MCP 服务器的推出,Anthropic 可以将模型——如智能编码工具 Claude Code[https://www.anthropic.com/claude-code]——直接与 ClickHouse 连接。通过这种方式,智能体可以通过程序化手段查询指标、发起问题并自动获得答案,无需编写传统的查询语言。
“我对此非常期待,”Maruth 说道,“在我看来,可观测性的本质并不在于 SQL 或 PromQL,而在于提问。我们希望能够直接提出问题,并立即获得所需答案。归根到底,这才是可观测性的核心价值。”
借助 ClickHouse,Anthropic 已经构建起支撑当下 AI 工作负载的可扩展、安全的坚实基础,并朝着更加动态、智能体驱动的未来不断迈进。
征稿启示
面向社区长期正文,文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出&图文并茂。质量合格的文章将会发布在本公众号,优秀者也有机会推荐到 ClickHouse 官网。请将文章稿件的 WORD 版本发邮件至:Tracy.Wang@clickhouse.com