云环境中的监控、管理与许可证管理
1. 监控数据的整合与解读
企业关注的重点是 IT 事件如何影响业务运营,这就需要对监控数据进行整合与解读。关键问题在于确定监控数据何时与业务相关。例如,告知企业领导者虚拟机 CPU 的性能并无实际意义,但当系统容量不足影响交易处理速度时,就应及时告知,因为这可能导致企业损失。
数据要能支持业务决策才具有相关性。部署额外虚拟机或扩展环境属于技术决策,而在特定时刻推出新产品则是业务决策。为做出此类决策,我们需分析现有系统对当前产品组合的性能表现,评估系统是否有足够容量应对额外流量。若监控数据显示系统在技术层面无法应对,可能需要重新架构系统。
许多公司在监控方面存在一个重大误区,即采用被动监控,仅在系统故障时才发出警报,此时往往为时已晚,业务可能已受到严重影响。理想的做法是采用主动监控,在最终用户察觉请求处理变慢之前,监控系统应能提前发出警报,提醒系统组件达到特定容量阈值或接口出现故障。为此,需要收集大量数据,建立系统在正常情况下的基准,任何偏离该基准的情况都应触发警报,以便在问题真正发生前进行调整。
企业主要关注第 7 层,即用户与系统实际交互的层面,如终端用户访问系统的速度、交易处理速度以及新产品推出速度等。为回答这些问题,需从系统中收集大量数据,明确关键阈值,从而预测业务需求。
2. 单窗格视图的探索
监控数据应便于业务决策者理解。例如,通过监控数据得出当前系统每天可额外承载 10,000 名公司网站访客的结论。监控在开发与运营(DevOps)决策中至关重要,同时在财务报告方面也具有重要意义,这属于财务运营(FinOps)的范畴。
单窗格视图指的是通过一个控制台
超级会员免费看
订阅专栏 解锁全文
1094

被折叠的 条评论
为什么被折叠?



