聊聊可观测性Observability

可观测性Observability近年来备受关注,尤其在运维领域。本文从实际应用出发,探讨了可观测性的核心内容,包括Metrics、Traces和Logs的结合。作者指出,单纯的技术结合并不足以实现可观测性,真正关键在于SRE方法论、AIOps算法能力和对业务架构的深入理解。文章详细阐述了SRE如何帮助识别关键指标,AIOps如何在复杂系统中发挥作用,以及业务架构理解的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

自打去年以来,可观测性Observability这个概念又非常的火,按照我的感受,在运维领域,这个概念是近两年即AIOps之后,热度最高的一个了。

无论是国内还是海外的运维相关的公司,都给了自己一个新的定位,就是可观测性平台,或者叫做可观测云,相对应的产品也是层出不穷。

对于我来讲,我看一个趋势,往往会从落地的角度,从实际情况来分析,反向去看,而不是单纯地看技术多么酷炫。

所以,我观测了很久Observability之后,打算还是从实际情况入手来聊聊这个概念,看看可观测这个东西到底包含哪些内容?它们之间是什么关系?

如果要落地,里面真正核心的、决定成败的又到底是哪些东西?

先做个简要概述:

Observability是来自控制论的一个概念:

In control theory, observability is a measure for how well internal states of a system can be inferred by knowledge of its external outputs. The observability and controllability of a system are mathematical duals. The concept ofobservability was introduced by American-Hungarian scientist Rudolf E. Kalmanfor linear dynamic systems.

这里我们不做详细描述,大家感兴趣可以自行查询一下。

通常我们在IT领域看到的关于可观测性概念的介绍,都会提到它是Metrics, Traces以及Logs的结合,通常会以下图来呈现。

782e88bb4e99cc02f5c95a66104c87ee.png

这里我找了一个Splunk的Demo,我们可以直观的感受一下,可观测性的实际效果是怎样的。

700ca237c652d8a4d0b89ae7249a9e16.gif

### 微服务架构中的可观测性和APM #### 可观测性平台与工具 在微服务架构环境中,为了确保系统的稳定性和高效运作,可观测性成为至关重要的因素。SkyWalking作为一个可观测性分析平台(Observability Analysis Platform, OAP),提供了全面的应用性能管理和监控能力[^1]。该平台不仅支持传统的应用性能指标收集,还特别针对分布式环境下的复杂场景进行了优化设计。 对于微服务体系而言,其特有的多组件交互模式使得单一维度的日志记录难以满足故障排查需求;因此,引入了诸如SkyWalking这样的综合性解决方案来增强整体可见度。这类系统能够捕捉并关联来自不同服务实例的数据流,从而形成完整的调用链条视图,便于快速定位问题根源所在[^3]。 #### 应用性能管理(APM) 另一方面,在讨论如何有效实施微服务治理时不可忽视的是——应用性能管理(Application Performance Management, APM)[^2]。作为一种专注于提升软件质量的技术手段,APM旨在通过对业务逻辑执行过程中的各项参数进行细致入微地监测,进而发现潜在的风险隐患,并及时采取措施加以解决。具体来说: - **实时状态感知**:持续获取各节点的工作情况报告; - **异常行为预警**:当检测到不符合预期的行为时自动触发报警机制; - **资源占用统计**:量化评估CPU、内存等硬件设施的实际消耗水平; - **依赖关系梳理**:清晰展示各个模块之间的相互作用方式及其影响程度。 值得注意的是,现代意义上的APM已经超越了单纯的功能层面考量,转而强调以用户体验为导向的价值创造理念。这意味着除了要保证后台程序正常运转之外,还需密切关注前端界面响应速度等因素给最终使用者带来的直观感受变化趋势。 #### 性能分析方法 面对日益复杂的云计算生态体系,采用科学合理的性能评测策略显得尤为重要。一方面可以通过设置合理的阈值范围来进行定界判断;另一方面则借助于机器学习算法挖掘隐藏规律特征,预测未来可能出现的变化态势。此外,利用压力测试模拟真实负载条件也是不可或缺的一环,这有助于提前暴露可能存在的短板环节以便尽早调整优化配置方案[^4]。 ```python import time from random import randint def simulate_api_call(): """Simulate an API call with varying response times.""" delay = randint(50, 500) / 1000.0 # Random delay between 50ms and 500ms. start_time = time.time() # Simulating work being done... time.sleep(delay) end_time = time.time() elapsed_time = round((end_time - start_time)*1000, 2) print(f"API Call completed in {elapsed_time} ms.") simulate_api_call() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值