
转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。
在《线上监控怎么做?》和《做好监控告警的关键技巧》两篇文章中我们探讨了做好监控的一些陷阱和重要技巧。
本文则主要梳理了从不同维度做监控时,值得重点关注的监控要素/指标。
如下表:
| 监控维度 | 重点关注监控要素/指标 |
|---|---|
| 业务监控 | 根据业务类型,列出业务关键KPI,从业务KPI寻找业务监控的重点。并将业务KPI与技术指标绑定,做好业务监控。 如客户满意度、客户成本、客户流失率等 |
| 前端监控 | 监控方式: 1. 真实用户监控:使用实际的用户流量作为监控数据,是前端监控工作的核心 2. 合成监控结合:创建假请求来生成数据做监控 指标: PV/UV/用户在每个页面的停留时间 页面加载时间 响应时间 错误指标(js错误、promise错误、资源加载错误、接口错误、白屏等) |
| 应用程序监控 | 1. CI/CD监控:持续构建时间、构建部署频率、测试通过率等指标 2. 端点监控(如:/health端点):内存使用、HTTP请求统计、外部资源指标等指标 |
| SSL证书监控 | 证书到期时间 |
| 标准服务器系统监控 | 1. CPU使用率 2. 内存使用率 3. 网络吞吐率 4. 磁盘使用率、磁盘IOPS 5. 负载(5min/15min) |
| web服务器监控 | 1. 每秒请求数(req/sec) 2. HTTP状态码 3. 请求数(请求数≠连接数) 4. 请求时间 |
| 数据库服务器监控 | 1. CPU 2. 连接数(最大连接数、已创建的总连接数、已连接的连接数、当前缓存的连接数、当前活跃的连接数) 3. 每秒查询数(qps)4. 慢查询 5. 主从状态、复制延迟 6. IOPS(Input/Output Per Second) |
| 负载均衡器监控 | 1. 后端健康检查:端口检查、http健康检查 2. 每秒请求数、请求/响应时间 3. 前端/后端的HTTP响应码 4. 客户端到LB/LB到后端的:连接数、流量、带宽 |
| 消息队列监控 | 1. 队列长度 2. 消费率 3. 异常率 4. 消息积压 |
| 缓存监控 | 1. 缓存命中率 2. 逐出项的数量 3. 连接数指标 |
| DNS监控 | 1. 区域传输数 2. 每秒查询数 3. 解析超时/无响应/出错/内容不匹配等 |
| 网络监控 | 网络性能监控:带宽、吞吐率、延迟、错误、抖动、PPS等、并发连接数、丢包率、重传率、可用性 |
| 安全监控 | 1. SSH:登录尝试和登录失败 2. syslog日志 3. auditd日志 |
本文详细概述了从业务、前端、应用、系统、网络到安全等多维度的IT监控关键要素和指标,包括业务KPI、用户行为、性能指标、系统健康检查等,旨在帮助读者建立有效的监控体系。
843

被折叠的 条评论
为什么被折叠?



