当今时代,企业运营和发展越来越依赖于数字化技术。要说技术里的“当红炸子鸡”,非AI莫属。无数企业寄希望于借助AI转型,但同时又焦虑于如何用好AI。
有句话是这么说的:“焦虑来源于恐惧,恐惧来源于未知。”
“未知”出人意料地成为目前困扰众多企业迈出AI创新的最大迷雾——相关调查报告指出,至2025年1月份,仅有44%的AI PoC进入生产环节;同时由于模型及工具应用的不一致性、扩展及信任等各种原因,预计在2027年,60%的生成式AI项目将在PoC阶段后被放弃。
如何变“未知”为“已知”,然后牢牢将其把握在自己可控范围内?在日前举行的“AI开源智选 助燃数字创新”SUSE Summit 2025创新峰会上,SUSE 亚太区 CTO Vishal Ghariwala给出了答案——可观测性。
SUSE亚太区CTO Vishal Ghariwala
可观测性:新瓶装旧酒,“未知”全赶走
所谓“可观测性”,可以这样理解——是一种通过系统运行时收集的表层信息来了解系统内部状态的能力,这种能力可以实现无需拆开系统便能通过检查系统或应用的输出、日志和性能指标来监控、测量和理解系统或应用的状态。在现代软件系统和云计算中,可观测性在确保应用和基础架构的可靠性、性能和安全性方面发挥着越来越重要的作用。
可观测性的工具和技术丰富多样,常见的包括日志(Log)、指标(Metrics)和追踪(Tracing)。日志是指应用程序在运行某些代码行时生成的结构化和非结构化文本行,记录了应用程序内的事件,可用于发现错误或系统异常;指标以数字方式表示应用程序随时间运行的数据,由一系列属性组成,可用于评估产品在整个开发过程中的性能并识别任何潜在问题;追踪则表示请求通过所有分布式系统节点的过程,有助于分析和观察系统,定位和解决问题,发现瓶颈。
但总起来说,可观测性不是新鲜事物。早在计算机科学和信息技术领域的早期发展阶段,就出现了可观测性相关概念的应用,并且随着计算机技术和系统架构的发展而逐渐演变。
20 世纪 80 年代,BSD Unix 系统的 Syslog 提供了一种标准化的机制,允许系统中的各个组件和应用程序将日志消息发送到 Syslog 守护进程,这为后来的日志管理工具和平台奠定了基础。1990 年代早期,Apache Web 服务器使用日志文件记录每个请求的详细信息,帮助网站管理员了解网站流量和用户行为。1995 年,Java 支持追踪机制,开发人员可以在代码中插入追踪指令,记录方法调用和异常信息,以便进行调试和错误排查。2003 年,MySQL 的二进制日志用于记录数据库的写操作,对于数据恢复和复制非常重要;同年,AWS 的 CloudWatch 服务提供了对云资源的监控和指标收集功能,用户可以收集和分析诸如 CPU 使用率、网络流量、磁盘 IO 等指标,以评估资源的性能和可靠性。
从历史实践来看,日志是最早被广泛应用的,其次是追踪,最后是指标。这些早期的可观测性实践主要用于单体架构系统,拓扑结构简单,不需要跨越不同网络边界。然而,随着分布式、微服务、云原生架构的兴起,系统观测方法面临着新的挑战,需要不断进化。
2010 年,Google 发布了一篇论文,介绍了其生产使用的大规模分布式系统跟踪基础设施 Dapper,Trace、Span 等概念由此诞生,为可观测性领域奠定了重要基础。2012 年,Twitter 开源了分布式追踪系统 Zipkin,以 Dapper 的设计思想为基础,促进了分布式追踪的普及和应用。同年,SoundCloud 开源了 Prometheus,于 2016 年加入 CNCF,成为重要的监控告警工具。2014 年,ELK(Elasticsearch + Logstash + Kibana)作为日志采集、展示、分析的整体解决方案受到广泛关注,并成为行业标准。2016 年,Google 发布了 Open Census,一款厂商中立、多语言跨平台、低开销的分布式 Trace 和 Metric 库。2019 年,OpenTracing 被合并到 OpenTelemetry 项目,推动了可观测性技术的进一步发展和标准化。
形影相伴:可观测性与云原生的不解之缘
这里不得不提的是可观测性与云原生的关系。
随着软件系统的复杂程度不断增加、微服务的广泛采用以及对分布式架构的日益依赖,云原生架构应运而生。云原生架构强调利用云计算的优势,通过容器化、微服务、DevOps 等技术,实现应用的快速开发、部署和扩展。在云原生环境中,可观测性变得至关重要,二者紧密相连,如影随形。
云原生架构的特点决定了其系统的复杂性和动态性。一个云原生应用可能由数十个甚至数百个微服务组成,每个微服务都有自己的生命周期和运行状态,并且可能部署在不同的容器中,运行在不同的节点上。这些微服务之间相互依赖,形成复杂的调用关系。同时,云原生应用通常需要根据负载自动扩展和缩减实例数量,以实现资源的高效利用。在这种情况下,如果没有有效的可观测性手段,运维团队将很难实时了解系统的运行状况,及时发现和解决问题。
为此,作为全球开源解决方案领导者的SUSE,专为云原生环境设计了一款可观测性平台——SUSE Cloud Observability。它为 Rancher 管理的 Kubernetes 集群提供了一体化解决方案,简化了可观测性工作流程,实现了多云环境下的实时监控。借助依赖关系映射,企业可以直观地展示多云环境下的集群情况,监控在 AWS、Azure 和 Google Cloud 等公有云上运行的 Rancher 管理的 Kubernetes 集群中的关键任务工作负载,实时快速检测和解决问题。
伴随着AI在企业数字化转型进程中的地位日益提升,可观测性又迎来了一次新的变革机遇。
携手共进:可观测性助力 AI,照亮企业前行之路
AI 模型的运作往往藏在 “黑箱” 之中,其内部决策过程、性能瓶颈或意外行为难以被理解和排查。企业在实施 AI 战略时,面临着诸多挑战——例如无法准确评估 AI 模型的性能、难以优化资源利用、难以确保 AI 应用的安全性等。而可观测性能够为这些问题提供解决方案。为此,云原生的可观测平台,迎来了AI可观测的变革。
作为集安全与信任、自由选择、扩展性于一体的企业级开源云原生AI平台,SUSE AI可用于部署和运行任何GenAI工作负载平台。SUSE AI构建在SUSE Rancher平台之上,集成了SUSE Observability,提供具备完全可观测性的AI解决方案,确保数据合规,并通过可视化控制面板提供包括Token的用量和GPU利用率和性能瓶颈等AI负载的关键指标,其在 AI 方面可以深度监控多个关键工作层级。
- AI 工作负载:驱动模型的核心计算进程,通过对其运行状况和性能指标的监测,及时发现潜在问题,确保模型的稳定运行。
- 大语言模型(LLM)管理:包括提示工程、Token 使用情况和模型响应质量等专属指标。通过监控 Token 用量,企业可以优化资源使用,降低运营成本;通过分析模型响应质量,企业可以不断改进提示设计,提高模型的输出效果。
- 基础 AI 组件:如用于编排的 Kubernetes 集群和用于计算加速的 GPU 管理。通过对这些基础组件的监控,企业可以优化资源配置,提高 AI 应用的整体性能。
随着 AI 技术在企业中的应用越来越广泛和深入,可观测性技术与 AI 技术的融合将更加紧密。SUSE 作为全球范围内创新且可靠的企业级开源解决方案领导者,其提供的 SUSE Observability 等产品和服务,为企业实现 AI 可观测性提供了有力支持。通过将可观测性洞察融入企业的核心运营和战略实践,企业能够摆脱 “盲马夜行” 的困境,更加自信地前行,充分发挥 AI 技术的潜力,推动企业的创新和发展。