云环境中的监控与许可证管理
1. 监控数据的整合与解读
企业关注的重点是 IT 事件对业务运营的影响,所以需要整合和解读监控数据。关键问题在于,何时监控数据与业务相关呢?比如,告知企业领导者虚拟机中 CPU 的性能并无意义,但当系统容量不足,影响交易处理速度时,告知他们就很有必要了。因为这可能导致企业因交易处理缓慢甚至超时失败而遭受损失。
数据与业务相关的标志是能够助力业务决策。像部署额外虚拟机或扩展环境属于技术决策,而在特定时刻推出新产品则是业务决策。此时,我们要依据监控数据,分析现有系统对当前产品组合的处理能力,判断是否有足够容量应对额外流量。若发现系统在技术层面无法应对,可能就需要重新架构系统。
很多公司在监控方面存在一个误区,即采取被动监控,仅在系统出现故障时才发出警报,然而此时往往已经对业务造成了大规模影响。理想的做法是主动监控,在终端用户察觉到请求处理变慢之前,监控系统就应针对系统组件达到容量阈值或接口出现故障发出警报。这可以通过收集大量数据,了解系统在正常情况下的响应状态(即基线)来实现,一旦出现偏离基线的情况就触发警报,以便及时调整。
企业真正关心的是第 7 层(用户与系统实际交互层)的情况,包括终端用户访问系统的速度、交易处理速度以及新产品推出速度等。为了回答这些问题,我们需要从系统中收集大量数据,明确关键阈值,从而预测业务需求。而且,监控数据要便于业务决策者理解,例如说明当前系统每天还能额外承载 10,000 名网站访客,其依据应来自监控数据。
监控在开发与运营(DevOps)决策中至关重要,同时在财务报告(FinOps)方面也意义重大。
1.1 单窗视图概念
单窗视图指的是通
超级会员免费看
订阅专栏 解锁全文
876

被折叠的 条评论
为什么被折叠?



