关键任务环境中的系统运维与性能优化
监控系统的关键要素
在关键任务环境中,监控系统起着至关重要的作用,它需要具备以下几个关键要素:
1. 维护调度 :监控设备应始终保持在线状态。系统需支持管理员输入,告知某些服务或一组服务预计在未来特定时间段内停机。在这些时间段内,服务仍会被监控,但发现的故障不会被升级处理。
2. 事件确认 :当出现不影响整体服务可用性和质量的故障时,通常可等到下一个工作日再处理。手动禁用通知存在风险,系统应自动确认故障,并在一定时间段内或到特定时间点暂停通知。
3. 服务依赖关系 :每个监控设备并非孤立运行。以一个典型的Web服务器为例,它可能涉及10多项系统检查,如连接性、远程访问、HTTP、HTTPS、时间偏差、磁盘空间、系统负载、网络指标以及各种HTTP响应码率等。该Web服务器连接到交换机,交换机连接到负载均衡器,负载均衡器再连接到防火墙等。如果监控基础设施位于架构之外,就会形成清晰的服务依赖图。例如,若Web服务器已崩溃,再提醒操作员服务器存在时间偏差就毫无意义;同样,若连接机器的交换机出现故障,提醒机器时间偏差或崩溃也没有必要。一个完善的监控系统必须明确服务依赖关系,并将这些关系融入通知逻辑中,确保发送给运维人员的系统警报清晰、简洁且能准确说明问题。
应对发布周期
大多数架构,即使是看似简单的小型架构,实际也比最初想象的要复杂得多。对于真正的关键任务应用程序,每个组件在投入生产之前都必须经过彻底测试。架构通常包含硬件、操作系统和服务器软件等基本元素,更复杂的架构还包括核心交换机、路由器、数据库、负载均衡
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



