监控系统到底都监控什么?QoS与SLA又将如何得以保障?

本文探讨了从传统应用监控到智能监控的发展,包括业务应用监控、Kubernetes的Prometheus+Grafana方案、Pinpoint应用性能监控、NPM网络性能监控和微服务全链路监控。通过这些监控手段,可以确保QoS和SLA,提升服务质量并实现高可用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1、传统应用监控

2、业务应用监控,简称SSM

3、Kubernetes容器应用监控方案——Prometheus+Grafana监控系统

Prometheus可以做什么

4、基于Pinpoint应用性能监控

5、NPM网络性能监控

6、微服务的全链路监控(Google Dapper)

7、智能监控(AI、人工智能、大数据)

高性能日志分析(DOLA)


业务高速发展,服务质量(QoS)与系统服务等级协议(SLA)指标如何得以保障呢?全方位立体式监控,一站式服务,助力企业快速发现并定位问题,提升服务质量,达到服务高可用指标。

从监控历程看,大概分为一下几部分:

1、传统应用监控

由于开放式平台标准化产品的特点,通过使用IBM tivoli、HP OpenView、Oracle EM等标准化的商用监控产品,数据中心能够方便快捷地实现面向主机、服务器、网络、存储、环境动力、操作系统、数据库、中间件等标准化软硬件产品的监控,并实现了各个专业的监控事件和容量性能数据的集中展现和处理。

以下是中间件监控视图(Redis、Mysql等)

2、业务应用监控,简称SSM

SSM是指对关键业务应用的监测和优化,提高业务应用的可用性和可靠性指标,在提供更优质服务的前提下,降低运维的投入和工作量,为用户带来更多的商业利益和客户体验。

业务运维,实现业务和ID的双向驱动。从业务视角实时感知业务系统运行状态,确保业务连续性,持续提升业务效能。业务监控的核心价值主要体现在以下几方面:

  • 监控业务表现
  • 确保业务连续性
  • 全渠道业务管控
  • 完善数字化KPI

如何实现业务监控,业务监控指标是关键。Four Golden Signals是Google针对大量分布式监控的经验总结,4个黄金指标可以在服务级别帮助衡量终端用户体验、服务中断、业务影响等层面的问题。主要关注与以下四种类型的指标:延迟,通讯量,错误以及饱和度。

延迟:服务请求所需时间。

记录用户所有请求所需的时间,重点是要区分成功请求的延迟时间和失败请求的延迟时间。 例如在数据库或者其他关键祸端服务异常触发HTTP 500的情况下,用户也可能会很快得到请求失败的响应内容,如果不加区分计算这些请求的延迟,可能导致计算结果与实际结果产生巨大的差异。除此以外,在微服务中通常提倡“快速失败”,开发人员需要特别注意这些延迟较大的错误,因为这些缓慢的错误会明显影响系统的性能,因此追踪这些错误的延迟也是非常重要的。

通讯量:监控当前系统的流量,用于衡量服务的容量需求。

流量对于不同类型的系统而言可能代表不同的含义。例如,在HTTP REST API中, 流量通常是每秒HTTP请求数;

错误:监控当前系统所有发生的错误请求,衡量当前系统错误发生的速率。

对于失败而言有些是显式的(比如, HTTP 500错误),而有些是隐式(比如,HTTP响应200,单实际业务流程依然是失败的)。
对于一些显式的错误如HTTP 500可以通过在负载均衡器(如Nginx)上进行捕获,而对于一些系统内部的异常,则可能需要直接从服务
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

江晓曼*凡云基地

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值